为 什么 写 这 本 书 





大 数据 、 人 工 智 能 正在 改变 或 颠覆 各 行 各 业 ， 包 括 我 们 的 生活 。 大 数据 、 人 工 智 能 方面 的 人 才 已 经 供不应求 ， 但 作为 人 工 智能 的 核心 一 机 器 学 习 ， 因 涉及 的 知识 和 技能 比较 多 ， 除 了 需要 具备 一 定 的 
数学 基础 、 相 关 业 务 知识 外 ， 还 要 求 有 比较 全 面 的 技术 储备 ， 如 操作 系统 、 数 据 库 、 开 发 语言 、 数 据 分 析 工 具 、 大 数据 计算 平台 等 ， 无 形 中 提高 了 机 器 学 习 的 门槛 。 如 何 降低 机 器 学 习 的 门槛 ， 让 更 多 有 志 
于 机 器 学 习 、 人 工 智 能 的 人 能 更 方便 或 顺畅 地 使 用 、 驾 驭 机 器 学 习 ? 


很 多 企业 也 正在 考虑 和 处 理 这 方面 的 问题 ， 本 书 也 希望 借 Spark 技 术 在 这 方面 做 一 些 介绍 或 总 结 。 


如 何 使 原本 复杂 、 专 业 性 强 的 工作 或 操作 简单 化 ”封装 是 一 个 有 效 方法 。 封 装 降低 了 我 们 操作 照相 机 的 难度 、 降 低 了 我 们 维护 各 种 现代 设备 的 成 本 ， 同 时 也 提升 了 我 们 使 用 这 些 设备 的 效率 。 除 封装 
外 ， 过 程 的 标准 化 、 流 程 化 同样 是 目前 现代 企业 用 于 提升 生产 效率 ， 降 低 成 本 ， 提 高 质量 的 有 效 方法 。 


硬件 如 此 ， 软 件 行业 同样 如 此 。 目 前 很 多 机 器 学 习 的 开发 语言 或 平台 ， 正 在 这 些 方面 加 大 力度 ， 比 如 : 对 特征 转换 、 特 征 选 择 、 数 据 清理 、 数 据 划 分 、 模 型 评估 及 优化 等 算法 的 封装 ; 对 机 器 学 习 过 程 
的 进行 流程 化 、 标 准 化 、 规 范 化 ; 给 大 家 比较 熟悉 的 语言 或 工具 提供 API 等 方法 或 措施 ， 以 简化 机 器 学 习 中 间 过 程 ， 缩 短 整 个 开发 周期 ， 使 我 们 能 更 从 容 地 应 对 市 场 的 变化 。Spark 在 这 方面 可 谓 后 来 居 上 ， 
尤其 是 最 近 发 布 的 版 本 ， 明 显 加 大 了 这 方面 的 力度 ,我们 可 以 从 以 下 几 个 方面 看 出 这 种 趋势 : 


1) Spark 机 器 学 习 的 API， 正 在 由 基于 RDD 过 渡 到 基于 Dataset 或 DataFrame， 基 于 RDD 的 API 在 Spark2.2 后 处 于 维护 阶段 ，Spark3.0 后 将 停止 使 用 (来 自 Spark 官 网 ) ; 
2) 建议 大 家 使 用 Spark ML， 尤 其 是 它 的 Pipeline; 

3) 增加 大 量 特征 选择 、 特 征 转 换 、 模 型 选择 和 优化 等 算法 ; 

4) 丰富 、 增 强 Spark 与 Java、Python、R 的 API， 使 其 更 通用 。 

SKLearn、sSpark 等 机 器 学 习 平台 或 工具 在 这 方面 都 处 于 领先 的 地 位 ， 我 们 也 希望 借助 本 书 ， 把 Spark 在 这 方面 的 有 关内 容 介 绍 给 大 家 ， 使 大 家 可 以 少 走 些 弯 路 。 


此 外 ，spark 目 前 主要 涉及 常用 机 器 学 习 算 法 ， 缺 乏 对 一 般 神 经 网 络 的 支持 ， 更 不 用 说 深度 学 习 3 了， 这 好 像 也 是 目前 Spark 的 一 个 不 足 。 不 过 好 消息 是 : 雅虎 把 深度 学 习 框 架 TensorFlow 与 Spark 整 合 在 
一 起 ， 而 县 开源 了 这 些 代码 。 为 弥补 广大 Spark 爱 好 者 的 上 述 缺憾 ， 本 书 介 绍 了 TensorFlowOnSpark， 其 中 包括 深度 学 习 框架 TensorFlow 的 基础 知识 及 使 用 卷 积 神经 网 络 、 循 环 神经 网 络 等 的 一 些 实际 案 
例 。 


另外 ， 我 们 提供 了 与 本 书 环境 完全 一 致 的 免费 云 操作 环境 ， 这 样 一 来 是 希望 节约 您 的 宝贵 时 间 ， 二 来 是 希望 能 通过 真正 的 实战 ， 给 您 不 一 样 的 体验 和 收获 ! 总 之 ， 我 们 希望 能 使 更 多 有 志 于 大 数据 、 人 
工 智能 的 朋友 加 入 这 个 充满 生机 、 前 景 广阔 的 行业 中 来 。 


本 书 特色 
本 书 最 大 特点 就 是 注重 实战 ! 或 许 有 读者 会 问 ， 能 从 哪 几 个 方面 体现 出 来 ? 
1) 介绍 了 目前 关于 机 器 学 习 的 新 趋势 ， 并 分 析 了 如 何 使 用 Pipeline 使 机 器 学 习 过 程 流程 化 。 
2) 简介 了 机 器 学 习 的 一 般 框 架 Spark、 深 度 学 习 框架 Tensorflow 及 把 两 者 整合 在 一 起 的 框架 TensorflowOnSpark。 
3) 提供 可 操作 、 便 执行 及 具有 实战 性 的 项 目 及 其 详细 代码 。 
4) 提供 与 书 完全 一 致 的 云 操 作 环境 ， 而 且 这 个 环境 可 以 随时 随地 使 用 实 操 环境 ， 登 录 地 址 为 http://www.feiguyun.comy/spark/support。 
5) 除了 代码 外 ， 还 附 有 一 些 必 要 的 架构 或 原理 说 明 ， 便 于 大 家 能 从 一 个 更 高 的 角度 来 理解 把 握 相 关 问 题 。 
总 之 ， 和 希望 你 通过 阅读 本 书 ， 不 但 可 以 了 解 很 多 内 容 或 代码 ， 更 可 以 亲自 运行 或 调试 这 些 代 码 ， 从 而 带 来 新 的 体验 和 收获 ! 
读者 对 象 
` 对 大 数据 、 机 器 学 习 感 兴趣 的 广大 在 校 、 在 职 人 员 。 
. 对 Spatk 机 器 学 习 有 一 定 基础 ， 谷 进一步 提高 开发 效率 的 人 员 。 
熟悉 Python、 有 等 工具 ， 和 希望 进一步 拓展 到 Spatk 机 器 学 习 的 人 。 


. 对 深度 学 习 框 架 TensotFlow 及 其 拓展 感 兴趣 的 读者 。 
如 何 阅读 本 书 
本 书 正 文 共 14 章 ， 从 内 容 结构 来 看 ， 可 以 分 为 四 部 分 。 


第 一 部 分 为 第 1 ~ 7 章 ， 主 要 介绍 了 机 器 学 习 的 一 些 基 本 概念 ， 包 括 如 何 构建 一 个 park 机 器 学 习 系统 ，Spark ML 主要 特点 ，Spark ML 中 流水 线 (Pipeline) ，ML 中 大 量 特征 选取 、 特 征 转换 、 特 征 选 
择 等 函数 或 方法 ， 同 时 简单 介绍 了 Spark MLlib 的 一 些 基础 知识 。 


第 二 部 分 为 第 8 ~ 12 章 ， 主 要 以 实例 为 主 ， 具 体 说 明 如 何 使 用 Spark ML 中 Pipeline 的 Stage， 以 及 如 何 把 这 Stage 组 合 到 流水 线 上 ， 最 后 通过 评估 指标 ， 优 化 模型 。 
第 三 部 分 即 第 13 章 ， 与 之 前 的 批量 处 理 不 同 ， 这 一 章 主 要 以 在 线 数 据 或 流 式 数据 为 主 ， 介 绍 Spark 的 流 式 计算 框架 Spark Streaming。 
第 四 部 分 即 第 14 章 ， 为 深度 学 习 框 架 ， 主 要 包括 TensorFlow 的 基础 知识 及 它 与 Spark 的 整合 框架 TensorFlowOnspark。 


此 外 ， 书 中 的 附录 部 分 还 提供 了 线性 代数 、 概 率 统计 及 Scala 的 基础 知识 ， 以 帮助 读者 更 好 地 掌握 机 器 学 习 的 相关 内 容 。 
勘误 和 支持 


除 封面 署名 外 ， 参 加 本 书 编写 、 环 境 搭建 的 人 还 有 杨 本 法 、 张 魁 、 刘 未 上 昕 等 、 杨 本 法 负责 第 12 章 Spark R 的 编写 ， 张 魁 、 刘 未 昕 负责 后 台 环 境 的 搭建 和 维护 。 由 于 笔者 水 平 有 限 ， 加 之 编写 时 间 仓 促 ， 
书 中 难免 出 现 错误 或 不 准确 的 地 方 。 居 请 读者 批评 指正 ， 你 可 以 通过 访问 http://www.feiguyun.com 留 下 宝贵 意见 。 也 可 以 通过 微 信 (wumg3000) 或 QQ (1715408972) 给 我 们 反馈 。 非 常 感 澳 你 的 支 


持 和 帮助 。 
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炯 、 李 昭 祥 老 师 ， 华 师 大 的 王 旭 同 学 ， 博 世 王 冬 ， 飞 谷 云 小 伙伴 等 提供 的 支持 和 帮助 。 


感谢 机 械 工 业 出 版 社 的 杨 福 川 、 李 艺 老师 给 予 本 书 的 大 力 支持 和 帮助 。 


感谢 参与 本 书 编写 的 其 他 作者 及 提供 支持 的 家 人 们 ， 谢 谢 你 们 ! 


第 1 章 ”了解 机 器 学 习 


大 数据 、 人 工 智 能 是 目前 大 家 谈论 比较 多 的 话题 ， 它 们 的 应 用 也 越 来 越 广泛 ， 与 我 们 的 生活 关系 也 越 来 越 密切 ， 影 响 也 越 来 越 深 远 ， 其 中 很 多 已 进入 寻常 百姓 家 ， 如 无 人 机 、 网 约 车 、 自 动 导 航 、 智 能 
家 电 、 电 商 推荐 、 人 机 对 话机 器 人 等 。 
大 数据 是 人 工 智能 的 基础 ， 而 使 大 数据 转变 为 知识 或 生产 力 ， 离 不 开机 器 学 习 (Machine Learning) ， 可 以 说 机 器 学 习 是 人 工 智能 的 核心 ， 是 使 机 器 具有 类 似 人 的 智能 的 根本 途径 。 


本 章 主要 介绍 与 机 器 学 习 有 关 的 概念 ， 机 器 学 习 与 大 数据 、 人 工 智 能 间 的 关系 ， 机 器 学 习 常用 架构 及 算法 等 ， 具 体 如 下 : 


: 大 数据 与 机 器 学 习 

` 机 器 学 习 与 人 工 智能 、 深 度 学 习 
. 机 器 学 习 的 基本 任务 

' 如 何 选择 合适 算法 


. Spatk 在 机 器 学 习 方面 的 优势 


1.1 机 器 学 习 的 定义 


机 器 学 习 是 什么 ? 是 否 有 统一 或 标准 定义 ? 目前 好 像 没有 ， 即 使 在 机 器 学 习 的 专业 领域 ， 也 没有 一 个 被 广泛 认可 的 定义 。 在 维基 百科 上 对 机 器 学 习 有 以 下 几 种 定义 : 
(1) 机 器 学 习 是 一 门人 工 智 能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智能 ， 特 别 是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 。 

(2) 机 器 学 习 是 对 能 通过 经 验 自动 改进 的 计算 机 算法 的 研究 。 

(3) 机 器 学 习 是 用 数据 或 以 往 的 经 验 来 优化 计算 机 程序 的 性 能 标准 。 

一 种 经 常 引 用 的 英文 定义 是 : A computer program is said to learn from experience (E) with respect to some class of tasks (T) and performance (P) measure, if its performance at 


tasks in T, as measured by P, improves with experience E, 


可 以 看 出 机 器 学 习 强 调 三 个 关键 词 : 算法 、 经 验 、 性 能 ， 其 处 理 过 程 如 图 1-1 所 示 。 
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图 1-1 机 器 学 习 处 理 流 程 


图 1-1 表 明 机 器 学 习 是 使 数据 通过 算法 构建 出 模型 ， 然 后 对 模型 性 能 进行 评估 ， 评 佑 后 的 指标 如 果 达 到 要 求 就 用 这 个 模型 测试 新 数据 ， 如 果 达 不 到 要 求 就 要 调整 算法 重新 建立 模型 ， 再 次 进行 评估 ， 如 此 
循环 往复 ， 最 终 获 得 满意 结果 。 


1.2 大 数据 与 机 器 学 习 


我 们 已 进入 大 数据 时 代 ， 产 生 数 据 的 能 力 迅速 增长 ， 如 互联 网 、 移 动 互联 网 、 物 联网 、 成 干 上 万 的 传感器 、 穿 戴 设 备 、GPS 等 都 会 产生 大 量 数 据 ， 存 储 数据 、 处 理 数据 等 能 力也 得 到 了 几何 级 数 的 提 
升 ， 如 利用 Hadoop、Spark 技 术 为 我 们 存储 、 人 处理 大 数据 提供 有 效 方法 。 


数据 就 是 信息 ， 就 是 依据 ， 其 背后 隐 合 了 大 量 不 易 被 我 们 感官 识别 的 信息 、 知 识 、 规 律 等 ， 如 何 揭示 这 些 信息 、 规 则 、 趋 势 ， 正 成 为 当下 能 给 企业 带 来 高 回报 的 热点 。 


而 机 器 学 习 的 任务 ， 就 是 要 在 大 数据 量 的 基础 上 ， 发 气 其 中 蕴含 的 有 用 信息 。 其 处 理 的 数据 越 多 ， 机 器 学 习 就 越 能 体现 出 优势 ， 以 前 很 多 用 机 器 学 习 解 决 不 了 或 处 理 不 好 的 问题 ， 通 过 大 数据 可 以 得 到 
很 好 解决 ， 性 能 也 会 大 幅 提升 ， 如 语言 识别 、 图 像 识 别 、 天 气 预 测 等 。 


1.3 ”机 器 学 习 、 人 工 智能 及 深度 学 习 


“人 工 智能 ”和 “机 器 学 习 ” 这 两 个 科技 术语 如 今 广 为 流 传 ， 已 成 为 当下 的 热 词 ， 然 而 ， 它 们 有 何 区 别 ? 又 有 哪些 相同 或 相似 的 地 方 ? 虽然 人 工 智能 和 机 器 学 习 高 度 相关 ， 但 却 并 不 尽 相同 。 


人 工 智 能 是 计算 机 科学 的 一 个 分 支 ， 目 的 是 开发 一 种 拥有 智能 行为 的 机 器 ， 目 前 很 多 大 公司 都 在 努力 开发 这 种 机 器 学 习 技 术 ， 努 力 让 计算 机 学 会 人 类 的 行为 模式 ， 以 便 推动 很 多 人 眼中 的 下 一 场 技术 革 
让 机 器 像 人 类 一 样 “思考 ”。 
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过 去 10 年 ， 机 器 学 习 为 我 们 带 来 了 无 人 驾驶 汽车 、 实 用 的 语 畜 识别 、 有 效 的 网 络 搜索 等 。 接 下 来 它 将 如 何 改变 我 们 的 生活 ? 在 哪些 领域 最 先 发 力 ? 让 我 们 拭目以待 。 
有 一 点 需要 注意 ， 对 很 多 机 器 学 习 来 说 ， 特 征 提取 不 是 一 件 简单 的 事情 。 在 一 些 复杂 问题 上 ， 要 想 通 过 人 工 的 方式 设计 有 效 的 特征 集合 ， 往 往 要 花费 很 多 的 时 间 和 精力 。 


作为 机 器 学 习 的 一 个 分 支 ， 深 度 学 习 解 决 的 核心 问题 之 一 就 是 自动 将 简单 的 特征 组 合成 更 加 复杂 的 特征 ， 并 利用 这 些 组 合 特征 解决 问题 。 它 除了 可 以 学 习 特 征 和 任务 之 间 的 关联 以 外 ， 还 能 自动 从 简单 
特征 中 提取 更 加 复杂 的 特征 。 图 1-2 展 示 了 深度 学 习 和 传统 机 器 学 习 在 流程 上 的 差异 。 深 度 学 习 算 法 可 以 从 数据 中 学 习 更 加 复杂 的 特征 表达 ， 使 得 最 后 一 步 权 重 学 习 变 得 更 加 简单 且 有 效 。 
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图 1-2 ”机 器 学 习 与 深度 学 习 流 程 对 比 
前 面 我 们 分 别 介 绍 了 机 器 学 习 、 人 工 智 能 及 深度 学 习 ， 那 么 它们 的 关系 如 何 ? 


紧密 相关 的 几 个 领域 。 图 1-3 说 明了 它们 之 间 的 大 致 关系 。 人 工 智能 是 一 类 非常 广泛 的 问题 ， 机 器 学 习 是 解决 这 类 问题 的 一 个 重要 手段 ， 深 度 学 习 则 是 机 器 学 习 的 一 个 


人 工 智能 、 机 器 学 习 和 深度 学 习 是 
深度 学 习 的 方法 突破 了 传统 机 器 学 习 方 法 的 瓶 贷 ， 推 动 了 人 工 智 能 领域 的 快速 友 展 。 


分 支 。 在 很 多 人 工 智能 问题 上 ， 





图 1-3” 人工 智能 、 机 器 学 习 与 深度 学 习 间 的 关系 


1.4 机 器 学 习 的 基本 任务 


机 器 学 习 基于 数据 ， 并 以 此 获取 新 知识 、 新 技能 。 它 的 任务 有 很 多 ， 分 类 是 其 基本 任务 之 一 。 所 谓 分 类 ， 就 是 将 新 数据 划分 到 合适 的 类 别 中 ， 一 般 用 于 类 别 型 的 目标 特征 。 如 果 目 标 特征 为 连续 型 ， 则 
往往 采用 回归 方法 。 回 归 是 对 新 目标 特征 进行 预测 ， 是 机 器 学 习 中 使 用 非常 广泛 的 方法 之 一 。 


分 类 和 回归 ， 都 是 先 根据 标签 值 或 目标 值 建立 模型 或 规则 ， 然 后 利用 这 些 带 有 目标 值 的 数据 形成 的 模型 或 规则 ， 对 新 数据 进行 识别 或 预测 。 这 两 种 方法 都 属于 监督 学 习 。 与 监督 学 习 相对 的 是 无 监督 学 
习 ， 无 监督 学 习 不 指定 目标 值 或 预先 无 法 知道 目标 值 ， 它 可 以 把 相似 或 相近 的 数据 划分 到 相同 的 组 里 ， 聚 类 就 是 解决 这 一 类 问题 的 方法 之 一 。 


除了 监督 学 习 、 无 监督 学 习 这 两 种 最 常见 的 任务 外 ， 还 有 半 监 督学 习 、 强 化 学 习 等 ， 这 里 我 们 就 不 展开 了 ， 图 1-4 展 示 了 这 些 基本 任务 间 的 关系 。 


机 器 学 习 
监督 学 习 无 监督 学 习 


根据 输入 数据 对 
慰 值 训练 预测 模型 epg 


分 类 

决策 桂 线性 回归 | | -均值 

条 素 贝 叶 斯 集成 方法 

神经 网 络 | | 
全 


支持 向 量 机 逻辑 回归 
打 仿 





图 1-4 机 器 学 习 基 本 任务 的 关系 


1.5 “如何 选择 合适 算法 


当 我 们 接 到 一 个 数据 分 析 或 挖掘 的 任务 或 需求 时 ， 如 果 和 希望 用 机 器 学 习 来 处 理 ， 首 先 要 做 的 是 根据 任务 或 需求 选择 合适 算法 ， 选 择 算 法 的 一 般 步 骤 如 图 1-5 所 示 。 






分 析 业 务 需求 
或 场景 





挟 否 需 要 预测 目标 值 





k 一 均值 、 分 层 





图 1-5 ”选择 算法 的 一 般 步 又 


充分 了 解数 据 及 其 特性 ， 有 助 于 我 们 更 有 效 地 选择 机 器 学 习 算 法 。 采 用 以 上 步骤 在 一 定 程度 上 可 以 缩小 算法 的 选择 学 围 ， 使 我 们 少 走 些 弯路 ， 但 在 具体 选择 哪 种 算法 方面 ， 一 般 并 不 存在 最 好 的 算法 或 
者 可 以 给 出 最 好 结果 的 算法 。 在 实际 做 项 目的 过 程 中 ， 这 个 过 程 往往 需要 多 次 尝试 ， 有 了 时 还 要 尝试 不 同 算法 。 不 过 先 用 一 种 简单 熟悉 的 方法 ， 然 后 ， 在 这 个 基础 上 不 断 优化 ， 时 常 能 收获 意 想不到 的 效果 。 


让 ~ 
1.6 Spark 在 机 器 学 习 方 面 的 优势 
在 大 数据 基础 上 进行 机 器 学 习 ， 需 要 处 理 全 量 数据 并 进行 大 量 的 欠 代 计算 ， 这 要 求 机 器 学 习 平台 具备 强大 的 处 理 能 力 。Spark 与 Hadoop 兼 容 ， 它 立足 于 内 存 计算 ， 天 然 适 用 于 迭代 式 计算 。Spark 是 一 
个 大 数据 计算 平台 ， 其 具体 有 以 下 优势 
“ 完整 的 大 数据 生态 系统 : 大 家 熟悉 的 SQL 式 操作 组 件 Spark SQL， 功 能 强大 、 性 能 优良 的 机 器 学 习 库 Spatk MIlib， 用 于 图 像 处 理 的 SparkGraphx 及 用 于 流 式 处 理 的 SpatkStreaming 等 。 


` 高 性 能 的 大 数据 计算 平台 : 因为 数据 被 加 载 到 集群 主机 的 分 布 式 内 存 中 ， 所 以 数据 可 以 被 快速 转换 选 代 ， 并 缓存 后 续 的 频繁 访问 需求 。 基 于 内 存 运 算 ，Spa 引 可 以 比 Hadoop 快 100 倍 ， 在 磁盘 中 运算 也 
比 Hadoop 快 10 倍 左右 。 


“ 与 Hadoop、Hive、HBase 等 无 颖 连接 : Spatk 可 以 直接 访问 Hadoop、Hive、HBase 等 的 数据 ， 同 时 也 可 使 用 Hadoop 的 资源 管理 器 。 


. 易 用 、 通 用 、 好 用 : Spatk 编 程 非常 高 效 、 简 洁 ， 支 持 多 种 语言 的 API， 如 Scala、Java、Python、R、SQL 等 ， 同 时 提供 类 似 于 Shell 的 交互 式 开发 环境 REPL。 


1.7 小 结 


本 章 简单 介绍 了 机 器 学 习 与 大 数据 、 人 工 智能 的 关系 ， 同 时 也 介绍 了 机 器 学 习 的 一 些 基 本 任务 和 如 何 选择 合适 算法 等 问题 。 在 选择 机 器 学 习 平台 时 ， 我 们 着 重 介绍 了 spark 这 样 一 个 大 数据 平台 的 集 大 
成 者 ， 它 有 很 多 优势 ， 而 且 得 到 了 很 多 企业 的 青睐 。Spark 是 本 书 的 主要 介绍 对 象 ， 下 一 章 我 们 将 介绍 如 何 构建 一 个 Spark 机 器 学 习 系 统 。 


第 2 章 ”构建 Spark 机 器 学 习 系 统 


构建 机 器 学 习 系 统 的 方法 ， 根 据 业务 需求 和 使 用 工具 的 不 同 ， 可 能 会 有 些 区 别 ， 不 过 主要 流程 差别 不 大 ， 基 本 包括 数据 抽取 、 数 据 探索 、 数 据 处 理 、 建 立 模型 、 训 练 模 型 、 评 估 模 型 、 优 化 模型 、 部 署 
模型 等 阶段 。 在 构建 系统 前 ， 我 们 需要 考虑 系统 的 扩展 性 ， 与 其 他 系统 的 整合 ， 系 统 升级 及 处 理 方式 等 。 本 章 我 们 主要 介绍 基于 Spark 机 器 学 习 的 架构 设计 或 系统 构建 的 一 般 步骤 ， 以 及 需要 注意 的 一 些 问 


构建 Spark 机 器 学 习 系统 的 一 般 步骤 如 下 : 


“ 启动 集群 
“ 加 载 数据 
.探索 数据 
数据 预 处 理 
. 构建 模型 
“ 模型 评估 
* 模型 优化 


* 模型 保存 


2.1 机 器 学 习 系 统 架 构 


Spark 发 展 非常 快 ， 到 我 们 着 手 编写 本 书 时 ，Spark 已 升级 为 2.1 版 。 自 2.0 以 后 ，Spark 大 大 增强 了 数据 流水 线 的 内 容 。 数 据 流水 线 的 思路 与 SKLearn 非 常 相似 ， 我 想 这 种 思路 或 许 是 未 来 的 一 个 趋势 ， 使 
机 器 学 习 的 流程 标准 化 、 规 范 化 、 流 程 化 ， 将 很 多 原来 需要 自己 编写 的 代码 封装 成 可 直接 调用 的 模块 或 浮 数 ， 模 型 评估 、 调 优 这 些 任务 也 可 实现 了 更 高 的 封装， 大 大 降低 机 器 学 习 的 门槛 。 


Spark 机 器 学 习 系 统 的 架构 图 如 图 2-1 所 示 ， 其 中 数据 探索 与 预 处 理 、 训 | 练 及 测试 算法 或 建 模 阶段 可 以 组 装 成 流水 线 方式 ， 模 型 评估 及 优化 阶段 可 以 采用 自动 化 方式 。 


效 据 探索 训练 及 测试 
与 了 预 处 理 算法 或 建 模 


收集 数据 输入 数据 


模型 
训练 





图 2-1 Spark 机 器 学 习 系 统 的 架构 图 


2.2 ”启动 集群 


对 于 spark 集 群 的 安装 配置 ， 这 里 不 做 详细 介绍 ， 对 spark 集 群 的 安装 配置 感 兴 趣 的 读者 ， 可 参考 由 我 们 编写 的 《自己 动手 做 大 数据 系统 》。 
常见 的 Spark 运 行 方式 有 本 地 模式 、 集 群 模式 。 本 地 模式 所 有 的 处 理 都 运行 在 同一 个 JVM 中 ， 而 后 者 ， 可 以 运行 在 不 同 节点 上 。 具 体 运行 模式 如 表 2-1 所 示 。 


表 2-1 Spark 运行 模式 


运行 模式 含义 
local 使 用 单线 程 在 本 机 上 运行 Spark 任务 
local[K] 使 用 天 个 工作 线程 在 本 机 上 运行 Spark。 天 值 最 好 小 于 等 于 CPU 的 核 数 
local[*] 使 用 和 CPU 核 数 相同 的 线程 数 在 本 机 上 运行 Spark 
spark://host:port Standalone 模式 运行 ，host 是 集群 中 Master 节点 机 需 名 ，port 是 端口 号 ， 默 认 是 7077 
mesos://host:port 连接 到 Mesos 集群 运行 任务 ，port 端口 号 默认 是 5055 
yarn-client 以 客户 端 方式 连接 到 YARN 集群 
yarn-cluster 以 集群 方式 连接 到 YARN 集群 


本 书 主要 以 Spark Standalone (独立 模式 ) 为 例 ， 如 果 想 以 其 他 模式 运行 ， 只 要 改动 对 应 参数 即 可 。 


Spark 支 持 Scala 或 Python 的 REPL (Read-Eval-Print-Loop， 交 互 式 shell) 来 进行 交互 式 程序 编写 ， 交 互 式 编程 在 输入 的 代码 执行 后 立即 能 看 到 结果 ， 非 常 友好 和 方便 。 


在 2.0 之 前 的 Spark 版 本 中 ，Spark shelI 会 自动 创建 一 个 SparkContext 对 象 sc。SparkContext 与 驱动 程序 (Driver Program) 和 集群 管理 器 (Cluster Manager) 间 的 关系 如 图 2-2 所 示 。 


Executor 


Task 






Driver Program 
Cluster Manager 
SparkContext 2 


Executor 


Task 


图 2-2 ”SpatrkContext 与 驱动 程序 、 集 群 管理 器 间 的 关系 图 


从 图 2-2 中 可 以 看 到 ，SparkContext 起 中 介 的 作用 ， 通 过 它 来 使 用 Spark 其 他 的 功能 。 每 一 个 JVM 都 有 一 个 对 应 的 SparkContext，Driver Program 通 过 SparkContext 连 接 到 集群 管理 器 来 实现 对 集群 
中 任务 的 控制 。Spark 配 置 参数 的 设置 以 及 对 SQLContext、HiveContext 和 StreamingContext 的 控制 也 要 通过 SparkContext。 


不 过 在 Spark 2.0 中 引入 了 SparkSession 对 象 (spark) ， 运 行 Spark shell 则 会 自动 创建 一 个 SparkSession 对 象 ， 在 输入 spark 时 就 会 发 现 它 已 经 存在 了 ( 见 图 2-3) 、SparkConf、SparkContext 和 
SQLContext 都 已 经 被 封装 在 SparkSession 当 中 ， 它 为 用 户 提 供 了 一 个 统一 的 切入 点 ， 同 时 也 提供 了 各 种 DataFrame 和 Dataset 的 APl， 大 大 降低 了 学 习 Spark 的 难度 。 


[hadoop@master -4 spark—shell 一 master spark://master:7077 
Setting default log level to “WARN . 
To adjust logging level use sc. setLogLevel (newLevel). For SparkR, use setLogLevel (newLevel). 
17/03/14 08:26:30 WARN NativeCodeLoader: Unable to load native-hadoop library for vyour platform... Using 
pplicable 
4 08:26:31 WARN Utils: Service SparkUI could not bind on port 4040. Attempting port 4041. 

3/14 08:26:31 WARN Utils: Service SparkUI could not bind on port 4041. Attempting port 4042. 

7/703/14 08:26:34 WARN HiveConf: HiveConf of name hive. metastore. local does not exXist 
xt Web UI available at http://192. 168. 1. 112:4042 

context available as sc (master = spark://master:7077, app id = app-20170314082632-0004) . 

ion available as ”spark . 


Welcome 


Version 2.1.0 


Using Scala version 2. 11.8 (Java HotSpot (TIM) 64-Bit Server VM, Java 1.8.0 60) 
Type in expressions to have them evaluated. 
Type :help for more information. 





图 2-3 ”启动 Spatk shell 界 面 


图 2-3 所 示 是 启动 Spark 集 群 的 界面 ， 编 程 语 言 是 ycala， 如 果 希 望 使 用 Python 为 编辑 语句 ， 该 如 何 启动 呢 ?” 运行 Pyspark 即 可 ， 如 图 2-4 所 示 。 


[ 


[hadoop@master J]$ pyspark 一 master spark://master:7077 一 driver-memory 1G —total-executor—cores 
ython 2.7. 12 |Anaconda custom (64-bit)| (default, Jul 2 2016, 17:42:40) 
[ype “copvright”, “credits” or “license” for more information. 
2 一 An enhanced lnteractive Python. 
Introduction and overview of IPython s features. 
Quick reference. 
Python s own help 
Details about ‘object , use object9?2 for extra details. 
Jsing i bac | Qt4AgSg 


es default log Tewaa to “WARN ”. | 
0 adjust logging level use sc. setLogLevel (newLevel). For SparkR, use 
he or 9 02:20: WARN HiveConf: HiveConf of name Wi metastore. local 


:20:01 WARN NativeCodeLoader: Unable to load native-hadoop library for Your platform... using 


2:90:03 WARN Utils: Service , SparkUI could not bind on port 4040. Attempting port 4041. 
20: 3 WARN Utils: Service SparkUI could not bind on port 4041. Attempting port 4042. 
WARN Utils: Service SparkUT could not bind on port 4042. Attempting port 4043. 

WARN HiveConf: HiveConf of name hive. metastore. local does not exist 





Version ?2.1.0 


-br. (def fan ult，Jul 2 2016 17:42:40) 





图 2-4 ”启动 PySpark 的 客户 端 
这 里 以 MovieLens 100k ( ) 数据 集中 的 用 户 数据 (u.data) 为 例 ， 首 先 在 本 地 查看 数据 的 基本 信息 ， 然 后 把 本 地 文件 复制 到 HDFS 


上 


Spark 或 PySpark 会 读 取 HDFS 上 的 数据 。 


查看 u.user 文 件 的 基本 信息 、 数 据 样 例 、 总 记录 数 等 信息 。 


$ head -3 u.user 
1|124|M|technician|85711 
2|153|F|other|94043 
3|123|M|writer|32067 

S cat u.user |wc -1 

943 





u.user 用 户 数 据 每 列 的 含义 为 user idlagelgenderloccupation|zip code， 即 用 户 ID、 用 户 年 龄 、 用 户 性 别 、 用 户 职位 、 所 在 地 邮编 等 信息 ， 列 间 的 分 隔 符 为 竖 线 (|) ， 共 有 943 条 记录 。 


如 何 把 用 户 信息 复制 到 HDFS 上 ?” 首先 ， 查 看 当前 HDFS 的 目录 信息 。 





$ hadoop fs -ls /u01/bigdata/ 
Found 2 items 














drwxr-xr-x ©- hadoop supergroup 0 2017-02-07 03:20 /u01/bigdata/data 
drwxr-xr-x ©- hadoop supergroup 0 2016-07-20 09:16 /u01l/bigdata/hive 
由 此 可 知 在 HDFS 上 已 有 /u01/bigdata/data 目 录 (如 果 没 有 目录 可 以 通过 hadoop fs-mkdire/u01/bigdata/data 命 令 创建 。) ， 通 过 以 下 命令 ， 把 本 地 文件 u.user 复 制 到 HDFS 上 。 


$ hadoop fs -put u.user /u01l/bigdata/data 
// 查 看 HDFS 上 的 文件 
$ hadoop fs -ls /u0l/bigdata/data 

-rw-r--r-- 1 hadoop supergroup 22628 2017-03-18 13:37 /u01l/bigdata/data/u.user 



































把 电影 评级 数据 (u.data) 、 电 影 数据 (u.item) 等 复制 到 HDFS 的 方法 与 上 边 的 相同 ， 把 本 地 数据 复制 到 HDFS 后 ，Spark 如 何 读 取 加 载 HDFS 上 的 文件 ? 我 们 可 以 通过 Spark 的 textFile 方 法 读 取 。 这 
里 我 们 以 PySpark 为 例 ， 启 动 PySpark 客 户 端 ， 导 入 需要 的 包 ， 然 后 通过 textFile 方 法 读 取 HDFS 上 的 数据 ， 有 具体 请 看 以 下 示例 : 





以 Spark 独 立 模式 启动 Pyspark 客 户 端 

pyspark --master spark://master:7077 --driver-memory 1G --total-executor-cores 2 
导入 需要 的 包 

from pyspark.sgql import 

from pyspark.sql import 

初始 化 sparkSession 

spark = SparkSession \\ 
.builder \ 
.appName ("Python Spark SQL basic example") \\ 
.Config ("spark.some.config.option", "some-value") \ 
.getOrCreate () 

加 载 数 据 ， 并 处 理 分 割 符 数 据 

SC = spark.sparkContext 

userrdd = sc.textFile("hdfs://master:9000/u01/bigdata/data/u.user") .map (lambda line: line.split("|")) 

利用 反射 机 制 推断 模式 (Schema) ,把 dataframe 注 册 为 一 个 table 

df = userrdd.map (lambda fields: Row (userid=fields[0], age=int (fields[1]),gender=fields[2],occupation=fields[3],zip=fields[4])) 

schemauser = spark.createDataFrame (df) 

schemauser.createOrReplaceTempView ("user") 




















SparkSession 
ROW 





















































































































































2.4 


= 
里 、 


2.4.1 


探索 数据 


生产 环境 中 数据 往往 包含 很 多 
数据 建 模 提供 重要 依据 。 在 进 


数据 特征 等 ， 为 数据 处 理 、 


数据 统计 信息 


加 载 数据 后 ， 首 先 要 关注 数据 的 统计 信息 ， 有 了 数据 统计 信息 ， 我 们 对 数据 就 有 了 一 个 大 致 了 解 ， 如 数据 特征 的 最 大 值 、 最 小 值 、 


构成 ， 为 数据 预 处 理 提 供 重 要 依据 。 查 看 用 户 各 字段 的 统计 信息 : 


schemauser.describe ("userid","age", "gender", "occupation"y "zip") .Show () 
summary userid age |gendqer Occupation Zip 
EE EN 二 ENETEEEEEEHEEREEHE 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
count 943 943 943 943 943 
mean 72.0134.05196182396607 nul ] nu] 50868.78810810811 
stddev|272.3649512449549|12.19273973305903 null] null|30891.373254138158 
min 1 3 Fladministrator 00000 
max 99 73 M writer Y1A6B 
IE 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
从 以 上 统计 可 以 看 出 ， 用 户 表 总 记录 数 为 943 条 ， 年 龄 最 小 为 7 岁 ， 最 大 为 73 岁 ， 平 均 年 龄 为 34 岁 。 
4 FE \ 
2.4.2 ”数据 质量 分 析 
数据 质量 分 析 是 数据 探索 阶段 重要 一 环 ， 数 据 不 是 完美 的 ， 往 往 存 在 缺少 数据 的 情况 ， 还 可 能 包含 不 一 
圾 进 ， 垃 圾 出 ”。 

















数据 质量 方面 的 分 析 ， 主 要 包括 以 下 几 个 方面 : 


“ 缺失 值 ; 


“人 


“ 不一致 的 值 ; 


错 苦 误 数据 oO 


本 节 以 一 份 某 酒店 的 销售 额 数据 为 例 ， 来 说 明 在 数据 探索 中 ， 对 数据 质量 的 一 般 


## 以 Spark 独 立 模式 ,启动 Pyspark 客 户 端 















































分 析 方 法 。 


pyspark --master spark://master:7077 --driver-memory 1G --total-executor-cores 2 


样 # 导 入 需要 的 库 
import pandas 
import matplo 


### 加 载 数 据 , 使 用 标题 行 


as pd 

















# 伍 看 df 的 统计 信息 
.count () ## 统 计 非 空 
ale date 200 

ale_ amt 198 提 ## 说 
Ff .describe () 
sale amt 
.000000 
.545152 
:557639 
.000000 
.7125000 
.850000 
.500000 
.440000 






























































f .boxplot () 
# flies 为 异常 值 的 标签 


























tlib.pyplot as plt 


s 值 记录 数 


明 sale amt 








### 获 取 df 


的 统计 信息 





x = bpl'fliers'][0]. 





get 

















y = bp[l'fliers'] [0] 
y.sort() 























# 用 annotate 添 加 注释 
for i in range (len (x)): 
plt.annotate (y[i], 














plt. show () 


运行 结果 如 图 2-5 所 示 。 





.get ydata () 


XxXy = (x[il,y[i]), xytext= (x 





有 两 个 空 值 


df=pd.read csv("/home/hadoop/data/catering sale.csv",header=0) 


[i]+0.1-0.8/ (y[i 


l-y[li-1]),yl[i])) 





脏 数据 ， 如 缺失 数据 、 不 一 致 、 不 规范 、 奇 异 数 据 等 ， 所 以 在 数据 加 载 后 且 在 数据 建 模 前 ， 
行 这 些 数据 分 析 时 ， 如 果 能 实现 数据 的 可 视 化 ， 当 然 更 利于 我 们 理解 数据 。 


致 数据 、 


异 单数 据 、 


需要 对 数据 进行 


噪声 数据 等 


平均 值 、 


分 析 或 探索 ， 尤 其 面 对 大 数据 ， 了 解数 据 的 统计 信息 、 数 据 质 


分 位 数 、 方 差 等 。 这 些 信 息 有 助 于 我 们 理解 数据 质量 、 数 据 


。 没 有 可 信 的 数据 ， 再 好 的 模型 性 能 都 不 太 可 能 好 ， 正 所 谓 


10 000 


9 106.44 


8 000 


0 000 


4 000 


2 000 





sale amt 


图 2-5 ”销售 额 箱 线 图 检测 异常 值 


从 以 上 分 析 可 知 ， 销 售 额 列 存在 两 个 空 值 、 六 个 可 能 的 异常 值 ， 其 中 865.0 和 1060.0 有 可 能 属于 正常 值 ， 当 然 也 需要 和 相关 业务 员 沟通 ， 对 于 其 他 数值 ， 需 要 进一步 分 析 异 常 值 产 生 的 原因 ， 然 后 确定 数 
据 的 去 留 。 


2.4.3 ”数据 特征 分 析 

对 数据 质量 有 基本 了 解 后 ， 接 下 来 就 可 以 对 数据 的 特征 进行 分 析 ， 数 据 特征 分 析 一 般 包括 以 下 内 容 : 

特征 分 布 分 析 ; 

对 比分 析 ; 

. 统计 量 分 析 。 

特征 一 般 指 用 于 模型 训练 的 变量 ， 原 始 数 据 中 的 特征 有 些 是 数值 ， 有 些 是 字符 或 其 他 格式 信息 ， 但 在 进行 机 器 学 习 前 ， 都 需要 转换 为 数值 。 根 据 实际 情况 ， 有 时 需要 根据 已 有 特征 生成 或 衍生 出 新 特 
征 ， 如 根据 用 户 年 龄 衍生 出 表示 老 、 中 、 青 的 新 特征 ， 有 时 需要 对 一 些 特征 进行 规范 化 、 标 准 化 等 转换 ， 尤 其 是 回归 类 模型 。 

1. 数 据 特征 分 析 实 例 


特征 的 分 布 分 析 有 助 于 发 现 相关 数据 的 分 布 特征 、 分 布 类 型 、 分 布 是 否 对 称 等 ， 可 以 使 用 数据 可 视 化 方法 ， 这 样 便于 直观 发 现 特征 的 异常 值 。 下 面 以 用 户 信息 数据 为 例 ， 分 析 用 户 的 年 龄 特征 、 职 业 特 
征 等 。 





from pyspark.sgql import SparkSession 
from pyspark.sql import Row 














spark = SparkSession \\ 
.builder \ 
.appName ("Python Spark SQL basic example") \\ 
.config ("spark.some.config.option", "some-value") \\ 
.getOrCreate () 








sc = spark.sparkContext 

# 加 载 textfile 文 件 并 转换 为 行 式 

userrdd = sc.textFile("hdfs://master:9000/u01/bigdata/data/u.user") .map (lambda line: line.split("|")) 
# 利 用 反射 机 制 把 RDD 转 换 为 DataFrame 
df = userrdd.map (lambda fields: Row (name=fields[0], age=int (fields[1]),gender=fields[2],occupation=fields[3],zip=fields[4])) 






























































# 把 qataframe 注 册 为 一 个 table 
schemauser = spark.createDataFrame (df) 
Schemauser .createOrReplaceTempView ("user") 








# 在 table 上 运行 SQL 

age = spark.sqgl ("SELECT age FROM user") 

# 把 运行 结果 转换 为 RDD 

ages = age.rdd.map (lambda p: p.age) .collect () 
hist(ages, bins=20, color="'lightblue', normed=True) 


























运行 结果 如 图 2-6 所 示 。 


从 图 2-6 可 以 看 出 ， 最 小 年 龄 在 10 岁 左右 ， 最 大 年 龄 超过 70 岁 ， 大 部 分 是 20 ~ 40 岁 。 
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0.04 
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0.01 
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我 们 还 可 以 进一步 分 析 用 户 职业 分 布 特征 。 


20 30 40 SO 60 


70 


图 2-6 用户 年 龄 特征 分 布 图 





80 





# 选取 用 户 职业 数据 











Count occp = spark.sql ("SEL 





# 查 看 前 5 行 数据 


count occp.show (5) 


























十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 
occupation|cnt 
十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 
homemaker 7 
doctor 水 
none 9 
awyer 2 
salesman| 12 
十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 
# 获 取 职业 名 称 及 职业 数 ,以 便 画 出 各 职业 总 数 图 形 


# 把 运行 结果 转换 为 RDD 
xX axis = count occp.rdd.map 
y_axis = count occp.rdd.map 





pos = np.arange (len (x axis) 
width = 1.0 





) 


### 隐 式 新 增 一 个 figure, 或 为 当前 figure 新 增 一 个 axes 





ax = plt.axes () 
ax.Sset - 


ax.set xticklabels (x axis) 





x 




















t .xticks (rotation=30) 
fig = matplotlib.pyplot.gcf 


fig.set size inches (16, 10) 








olee 




















1 


() 





ticks (pos + (wigdth / 2)) 拓 ## 设 置 x 轴 刻度 


ECT occupation,count (occupation) as cnt FROM user Group by occupation order by cnt") 


(lambda p: p.occupation) .collect () 
(lambda p: p.cnt) .collect () 


#### 为 对 应 刻度 打上 标签 


lt.bar (pos, y _ axis, width, color='orange ' ) 








####x 轴 上 的 标签 旋转 30 度 
### 获 取 当 前 figure 的 应 用 




















### 设 置 当 前 figure 大 小 





从 图 2-7 所 示 的 用 户 职业 分 布 图 可 以 看 出 ， 学 生 占 绝 大 多 数 ， 其 次 是 其 他 职业 从 业者 、 教 育 工作 者 、 管 理 者 、 工 程 师 等 。 医 生 、 家 庭 主妇 或 许 平 时 较 忙 ， 故 数量 比较 少 。 
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图 2-7 用 户 职业 分 布 图 


2. 特 征 分 布 及 相关 性 分 析 
在 数据 探索 阶段 分 析 特 征 分 布 、 特 征 间 的 相关 性 等 ， 将 为 后 续 的 特征 选择 、 特 征 提取 将 提供 重要 依据 。 以 下 是 对 共享 单车 数据 的 特征 分 析 ， 详 细 内 容 可 参考 9.3 节 。 


### 探 索 特征 间 分 布 、 相 关 性 等 
import pandas as pd 

import seaborn as sns 

import matplotlib.pyplot as pilt 





data pd=datal .toPandas () 

sns.set (style='whitegrid',context='notebook') 
cols=['temp', 'atemp', 'label'] 
sns.pairplot (data pdl[lcols],size=2.5) 
plt.show () 


运行 结果 如 图 2-8 所 示 。 
3. 对 比分 析 


下 面 以 销售 数据 为 例 进行 对 比分 析 ， 运 行 结果 如 图 2-9 所 示 。 


temp 
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temp atemp label 
图 2-8 ”houts 数 据 集 特征 分 布 及 相关 性 示例 图 


### 导 入 需要 的 库 
import pandas as pd 
### 把 日 期 列 作 为 索引 ,并 转换 为 日 期 格式 


























df = pd.read csv("/home/hadoop/data/catering sale.csv",header=0,index col='sale date',parse dates=True) 
### 把 空 值 置 为 0 加 加 加 四 
df1l=df.fillna (0) 

### 根 据 年 月 求 和 

df ym=dfl1.resample('M',how="sum') 

## 取 年 月 

df2=df ym.to period('M') 

## 数 据 可 和 视 化 

df2.plot (kind="'bar', rot=30) 
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图 2-9 ”销售 月 份 对 比 图 


2.4.4 数据 的 可 钢化 


数据 的 可 视 化 是 数据 探索 、 数 据 分 析 中 的 重要 任务 ， 通 过 可 视 化 可 以 帮助 我 们 发 现 数据 的 异常 值 、 特 征 的 分 布 情况 等 ， 为 数据 预 处 理 提供 重要 支持 。Spark 目 前 对 数据 的 可 视 化 功能 还 很 弱 或 还 没有 ， 
不 过 没关系 ， 我 们 可 以 借助 Python 或 R 等 可 视 化 功能 ，Python 和 R 在 数据 可 视 化 方面 功能 很 强大 ， 这 里 以 Python 的 数据 可 视 化 为 例 。Python 的 数据 表现 能 力 很 明 ， 其 可 视 化 可 以 使 用 matplotlib 或 plot 等 方 
法 。matplotlib 是 一 种 比较 低级 但 强大 的 绘图 工具 ， 可 以 进行 很 多 定制 化 ， 但 往往 需要 较 大 代码 来 实现 ; plot 是 一 种 非常 简洁 的 绘图 工具 ， 它 主要 基于 pandas 基 础 之 上 。 接 下 来 我 们 通过 两 个 示例 来 具体 说 
明 。 


下 例 是 通过 matplotlib 可 视 化 sin (x) 和 cos (x2) 函数 的 图 形 。 





# -*- coding: utf-8 一 * 一 

import numpy as np 

import matplotlib 

import matplotlib.pyplot as plt 



































t.rcParams['font.sans-serif']=['SimHei'] ### 显 示 中 文 
t.rcParams['axes.unicode minus']=False  ## 防 止 坐标 轴 上 的 "-" 号 变 为 方块 
= np.linspace (0, 10, 100) 
= ™ OP: sin (x) 
| = np.cos (x) 

一 个 图 ,长 为 10, 宽 为 6 (默认 值 是 每 个 单位 80 像 素 ) 
igure (figsize=(10,6)) 
在 图 到 中 自动 显示 $ 间 内 容 
ot (X y, label="$sin (x) $",color="red",1inewidth=2) 
ot (x, yl, "b--", label="$cos (x^2) $") ###b (blue) ,=-- 线 形 
abe] ") ##x 坐 标 名 称 ,u 表 示 unicode 编 码 
t.ylabel (u"Y 值 ") 
title (u" 三 角 函 数 图 像 ") ##t 图 名 称 
te YLim(=1 222) ##y 上 的 max、min 值 
legend () ## 显 示 图 例 
savefig('fig01.png') ” 椅 保 持 到 当前 目录 


Show () 
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运行 结果 如 图 2-10 所 示 。 





X 值 


图 2-10 ”matplot 数 据 可 视 化 


同样 的 ， 如 果 我 们 使 用 plot 对 这 些 数据 来 进行 可 视 化 ， 代 码 可 以 非常 简洁 ， 但 定制 化 方面 可 能 要 弱 一 些 。 





from pandas import DataFrame 
import pandas as pd 
import numpy as np 





x = np.linspace(0, 10, 100) 
df=DataFrame ({'sin (x) ' :np.sin (x), 'Ccos (x) ' :np.cos (x) }, index=x) 
df.plot () 














显示 图 形 如 图 2-11 所 示 。 
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图 2-11 plot 数 据 可 视 化 


从 以 上 实现 代码 可 以 看 出 ， 如 果 使 用 plot 进 行 数据 可 视 化 则 非常 简单 ， 虽 然 定 制 化 要 比 matplotlib 少 些 ， 但 其 可 定制 的 项 也 不 少 ， 如 kind、rot、title、legend 等 。 


2.5 数据 预 处 理 


前 面 我们 介绍 了 探索 数据 的 一 些 方法 ， 通 过 对 数据 的 探索 ， 可 以 帮助 我 们 发 现 一些 奇 异 数据 、 缺 失 数据 、 特 征 的 类 别 及 其 分 布 情况 等 信息 。 而 这 些 信息 正 是 对 数据 预 处理 的 重要 依据 。 在 数据 分 析 、 机 
器 学 习 中 ， 数 据 的 预 处 理 非 常 关 键 ， 尤 其 是 涉及 大 数据 的 处 理 ， 往 往 是 比较 费时 、 费 神 的 过 程 ， 有 时 还 需要 往返 多 次 。 当 然 ， 如 果 数 据 预 处 理 做 得 好 ， 除 提高 数据 质量 外 ， 更 能 极 大 提高 模型 的 性 能 。 


数据 的 预 处 理 一 般 包 括 数据 清理 、 数 据 变换 、 数 据 集成 、 数 据 归 约 等 ， 如 图 2-12 所 示 。 


数据 清理 效 据 集成 





' ALAZA3 5* Al20 Al1A3…Al15 ， -2，32，89，102，9 

工 | 工 | 

! T2 区 

TI3 0 uu 

| T1 456 | 

! T2 000 -0.02，0.32，0.89，1.02，0.09 





图 2-12 ”数据 预 处 理 示意 图 


2.5.1 ”数据 清理 


数据 清理 的 主要 任务 是 填补 缺失 值 、 光 滑 噪 声 数据 、 处 理 奇异 数据 、 纠 正 错误 数据 、 删 除 重复 数据 、 删 除 唯一 性 属性 、 去 除 不 相关 字段 或 特征 、 处 理 不 一 致 数据 等 。 噪 声 数据 的 处 理 方法 为 分 箱 、 
等 。 以 下 分 别 以 处 理 缺失 数据 、 异 常数 据 为 例 ， 说 明 在 Spark 中 如 何 进行 数据 清理 。 


类 


册 


1. 处 理 缺 失 数 据 





import pandas as pd 

## 读 取 HDFS 上 的 数据 

df=pd.read csv("/home/hadoop/data/catering sale.csv",header=0) 
## 定 位 数据 集中 的 空 值 

df[df.isnull () .valLlues==True] 


村 显示 结果 如 下 ,说 明 了 2 个 空 值 









































































































































sale date Sale amt 
13 2015/2/14 NaN 
32 2015/1/26 NaN 
ww 
df.fillnal 
生 吉 该 阳平 均值 填补 空 人 
df['sale amt'].fillna(df['sale amt'].count()) 
## 或 用 该 列 前 一 行 值 填补 空 值 
df.fillna (methogd='pad') 














2. 处 理 奇异 数据 


在 数据 探索 阶段 ， 我 们 发 现 销售 数据 文件 catering_sale.csv 中 有 6 个 可 能 的 奇异 数据 ， 假 设 与 相关 人 员 核 实 后 ， 只 有 22.0 为 奇异 数据 或 错误 数据 。 对 错误 数据 我 们 一 般 采 用 删除 或 替换 的 方法 ， 这 里 我 们 
采用 Spark SQL 来 处 理 奇 异 数据 。 


首先 把 数据 复制 到 HDFS， 用 Spark 读 取 数 据 ， 如 果 启 动 Pyspark， 则 可 以 通过 spark.read.csv ( “/home/hadoop/dataycatering sale.csv”，header=True) 读 取 ; 如 果 启 动 spark-shell， 则 可 以 采 
用 spark.read.option (“header ，” true” ) .csv (“hdfs: //192.168.1.112: 9000/home/hadoop/data/catering sale.csv”) 的 方式 读 取 。 





# 读 取 CSV 文 件 , 保 留 文件 标题 ,并 创建 Spark 的 一 张 derby 数 据 库 的 表 
df=spark.read.csv(' '/home/hadoop/data/catering ， sale.csv",header=True) 
## 转 换 数据 类 型 

dfl=df.select (df['sale date'],df['sale amt'] .cast ("Double")) 
# 

di 


























村 假设 把 22 .0 奇异 数据 蔡 换 为 200.0 
fl.replace (22.0,200.0,'sale amt') 




















这 里 我 们 使 用 了 DataFrame 的 select、replace 等 方法 ， 实 际 上 df 还 有 很 多 可 利用 的 方法 或 函数 ， 可 以 通过 df.+Tab 键 查看 ， 如 图 2-13 所 示 。 


这 些 方法 或 函数 的 具体 使 用 ， 可 以 通过 df. 方 法 名 的 方式 查看 ， 图 2-14 所 示 为 查看 df.filter 的 详细 用 法 。 


2 df. 

-agg 

.alias 

. approxQuantile 
.Cache 

. Checkpoint 
.Coalesce 
.Collect 

. CoOlumns 
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-COUNt 

-OY 
.CreateGlobalTempView 
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oy 
. CrossJoin 
.Crosstab 

. Cube 

. describe 
.distinct 


. drop 

.drop duplicates 
. dropDuplicates 
. dropna 

. dtvpes 

. Explain 

.fillna 

.filter 

first 

. foreach 

. foreachPartition 
. freqltems 

. groupby 

. groupBy 

.head 

. Intersect 

.1s cached 

. 1sLocal 
.lsotreaming 


. Join 

. limit 

.na 

. orderBy 

. persist 
.printSschema 
.randomSplit 
.rdd 
.reglisterTempTable 
.repartition 
.replace 
.rollup 

. Sample 

. SampleBy 

. SChema 

. Select 

. SelectExpr 
. Show 

. Sort 


图 2-13 ”其 他 可 利用 的 方法 或 函数 


dt. filter’? 
df. filter (condition) 


Filters rows using the given condit1lon. 


:func: Where is an alias for :func: filter . 


:param condition: a :class: Colum of :class: 
or a string of vwQL express1lon. 


>>> df.filter(df.age > 3).collect() 
[Row (age=5, name=u Bob )| 

>>> df.whereldf. age 一 2).collect() 
[Row (age=?2, name=u Alice ) 


>>> df.filter( age > 3°).collect() 
[Row (age=5, name=u Bob ) 

>>>》 df. Where( age = 2”°).collect 0) 
[Row (age=2, name=u Alice )|] 


图 2-14 查看 df.filtet 的 使 用 方法 


此 外 ， 我 们 还 可 以 使 用 大 量 spark.sql.functions 或 pyspark.sqlfunctions 函 数 ， 以 下 是 使 用 去 除 字段 左右 空格 、 截 取 字 段 长 度 等 内 置 函 数 的 示例 : 


from PDySpParKk.Ssdql.functions import * 

### 去 空格 

df.select (trim(df.sale aqate) ) .Show () 

### 去 年 份 本 

df.select (Supstring(dqf.sale date,1,4) .alias("year')vdqf.sale amt) .Show () 


数据 变换 是 数据 预 处 理 中 的 一 项 重要 内 容 ， 如 对 数据 进行 规范 化 、 离 散 化 、 衍 生 指标 、 类 别 特征 数值 化 、 平 滑 噪 声 等 都 属于 数据 变换 。 在 Spark ML 中 有 很 多 现成 的 数据 变换 算法 ， 利 用 这 些 算法 可 极 大 


是 高 整个 数据 处 理 的 效率 ， 表 2-2 所 示 只 是 概况 ， 更 多 详细 信息 请 参考 第 4 章 。 


表 2-2 ”Spark ML 自 带 的 数据 变换 算法 


. SortWithinPartitions 
. Sql ctx 

. Stat 

. StorageLevel 

. Subtract 

.take 

. toDF 

. toJSON 
.toLocallterator 

. toPandas 

. Union 

. UnionAll 

. Unpersist 

.Where 

.WithColumn 

. WithColumnRenamed 
.WithWatermark 

. Wrlite 

. WriteSstream 


tvypes. BooleanType 





数据 预 处 理 算法 功能 简介 
TF-IDF 统计 文档 的 词 频 一 逆 癌 文件 频率 (TF-IDF) 
Word2Vec 将 文档 转换 为 回 量 
Tokenization Tokenization 将 文本 划分 为 独立 个 体 
StopWordsRemover | 删除 了 所 有 停 用 词 
PCA 使 用 PCA 方法 可 以 对 变量 集合 进行 降 维 
StringIndexer StringIndexer 将 字符 串 列 编码 为 标签 索引 列 
OneHotEncoder 将 标签 指标 映射 为 二 值 (0 或 1) 癌 量 
Normalizer 澳 范 每 个 回 量 以 具有 单位 范 数 
StandardScaler 标准 化 每 个 特征 使 得 其 有 统一 的 标准 差 以 及 (或 者 ) 均值 为 0， 方 差 为 1 
VectorAssembler 将 给 定 的 多 列表 组 合成 一 个 单一 的 回 量 列 


性 征 抽取 





Ht 
PY 
Fr, 
-Ah 
A 


这 里 我 们 以 卡 方 检验 为 例 ， 分 析 如 何 根据 特征 的 贡献 率 来 选择 特征 。 假 设 我 们 有 很 多 特征 ， 如 表示 时 间 特 征 的 季节 (season) 、 年 月 (yr) 、 月 份 (mnth) 、 是 否 节 假日 (holiday) 、 是 否 周末 








(weekday) ， 表 示 天 和 气 的 特征 weathersit、temp 等 。 为 了 使 用 卡 方 检验 来 选择 这 些 特征 ， 首 先 需要 把 各 特征 组 合 为 一 个 特征 向 量 ， 然 后 ， 把 整合 后 的 特征 向 量 及 选择 特征 个 数 等 代入 卡 方 模型 中 ， 详 细 代 
码 如 下 : 

// 定 义 特征 向 量 

featuresArray =["season", "yr", "mnth", hz" holiday" "weekday", "workingday", 


"weathersit", "temp", "atemp", "hum", "windspeed"] 


















































### 把 各 特征 组 合成 特征 癌 量 features 

assembler = VectorAssembler (inputCols=featuresArray, outputCol="features") 

### 选 择 贡 献 度 较 大 的 前 5 个 特征 

selectorfeature = ChiSqSelector (numTopFeatures=5, featuresCol="features",outputCol 
="selectedFeatures", labelCol="label") 











2.5.3 ”数据 集成 


数据 集成 是 将 多 文件 或 者 多 数据 库 中 的 数据 进行 合并 ， 然 后 存放 在 一 个 一 致 的 数据 存储 中 。 数 据 集成 一 般 通 过 join、union 或 merge 等 关键 字 把 两 个 (或 多 个 ) 数据 集 连接 在 一 起 ，Spark SQL (包括 
DataFrame) 有 join 方法 ，Pandas 下 有 merge 方 法 。 数 据 集成 往往 需要 耗费 很 多 资源 ， 尤 其 是 大 数据 间 的 集成 涉及 shuffle 过 程 ， 有 时 需要 牵涉 多 个 节点 ， 所 以 除了 数据 一 致 性 外 ， 性 能 问题 常常 不 请 自 


来 ， 需 要 我 们 特别 留心 。 
传统 数据 库 一 般 是 在 单机 上 采用 hash join 方法 ， 如 果 在 分 布 式 环境 中 ， 采 用 join 时 ， 可 以 考虑 充分 利用 分 布 式 资源 进行 平行 化 。 当 然 ， 在 进行 join 之 前 ， 对 数据 过 滤 或 归 约 也 是 常用 的 优化 方法 。 
Spark SQL 中 有 三 种 join 方法 : 
. broadcast hash join: 如 果 join 的 表 中 有 一 张大 表 和 一 张 较 小 的 表 ， 可 以 考虑 把 小 表 广 播 分 发 到 大 表 所 在 的 分 区 节点 上 ， 分 别 并 发 地 与 其 上 的 分 区 记录 进行 hash join。 


.shuffle hash join: 如 果 两 张 表 都 不 小 ， 对 数据 量 较 大 的 表 进 行 广播 分 发 就 不 太 适 合 。 这 种 情况 下 ， 可 以 根据 join key 相 同 必 然 分 区 相同 的 原理 ， 将 两 张 表 分 别 按照 join key 进行 重新 组 织 分 区 ， 这 样 就 可 


以 将 join 分 而 治之 ， 划 分 为 很 多 小 join， 充 分 利用 集群 资源 并 行 化 。 


' sort merge join: 对 数据 量 较 大 的 表 也 可 以 考虑 使 用 sott merge join 方法 ， 先 将 两 张大 表 根 据 join key 进 行 重 新 分 区 ， 两 张 表 数据 会 分 布 到 整个 集群 ， 以 便 分 布 式 并 行 处 理 ， 然 后 ， 对 单个 分 区 节点 的 两 表 
数据 分 别 进行 排序 ， 最 后 ， 对 排 好 序 的 两 张 分 区 表 数 据 执 行 join 操作 。 


DataFrame 中 join 的 方式 有 (或 merge) 内 连接 、 左 连接 、 右 连接 等 。 


2.5.4 数据 归 约 
大 数据 是 机 器 学 习 的 基础 ， 但 大 数据 往往 数据 量 非 常 大 ， 有 时 我 们 可 以 通过 数据 归 约 技术 删除 或 减少 元 余 属 性 (或 维 ) 、 精 简 数 据 集 等 ， 使 归 约 后 的 数据 比 原 数据 小 ， 甚 至 小 很 多 ， 但 仍然 接近 于 保持 
原 数 据 的 完整 性 ， 且 结果 与 归 约 前 结果 相同 或 几乎 相同 。 表 2-3 所 示 列 举 了 spark ML 自 融 的 特征 选择 或 降 维 算法 。 


表 2-3 ”Spark ML 自 带 的 数据 选择 算法 及 功能 简介 


数据 预 处 理 算 ; 功能 简介 
得 到 一 个 新 的 原始 特征 子 集 的 特征 向 量 
通过 R 模型 公式 来 将 数据 中 的 字段 转换 为 特征 值 
特征 选择 或 降 维 | PCA 使 用 PCA 方法 可 以 对 变量 集合 进行 降 维 


Amxn 寺 UmxrSrxr Vxn (<<m, r<<n) 


根据 分 类 的 卡 方 独立 性 检验 来 对 特征 排序 ， 选 取 类 别 标签 主要 依赖 的 特征 





选择 特征 或 降 维 是 机 器 学 习 中 重要 的 处 理 方法 ， 我 们 可 以 使 用 上 述 这 些 方法 在 减少 特征 个 数 、 消 除 噪声 等 问题 的 同时 ， 维 持原 始 数据 的 内 在 结构 或 主要 特征 。 尤 其 是 降 维 ， 在 大 数据 、 机 器 学 习 中 具有 
重要 作用 ， 以 下 通过 两 个 实例 说 明 SVD、PCA 算 法 的 具体 使 用 (目前 Spark MLlib 支 持 SVD 及 PCA) 。 








import org.apache.spark.mllib.linalg.Matrix 
import org.apache.spark.mllib.linalg.SingularValueDecomposition 




















import 
import org.apache.spark.mllib.1i 
import 


val 


Vectors. 
Vectors. 
Vectors. 
Vectors. 
Vectors. 





val 
val 


// 保 留 


val 


org.apache.spark.mllib.1i 




















org.apache.spark.mllib.] 





lg.Vector 
lg.Vectors 
lg.distributed.RowMatrix 








data = 








dataRDD = 
mat: RowMatrix = 


轨 前 3 个 奇异 值 , 需要 获得 U 成 员 


svd = mat 


.computeSsSVvD (3, computeU = 


sc.parallelize (data, 2) 
new RowMatrix (dataRDD) 





true) 


// 通 过 访问 sva 对 象 的 v、s、U 成 员 分 别 拿 到 进行 SVD 分 解 后 的 右 奇异 矩阵 、 奇 异 值 向 量 和 左 奇异 矩阵 


val 
val 





U: RowMatrix = 
S: Vector = svd.s 


svd.U // 左 奇异 矩阵 
// 从 大 到 小 的 奇异 值 向 量 








[30.88197557931219,10.848035248251415, 8.201924156089822] 




















val V: Matrix = svd.V // 右 奇异 矩阵 
-0.33309047675110115 0.6307611082680837 0.10881297540284612 
-0.252559026169606 -0.13320654554805747 0.4862541277385016 


-0.391 
=0.332667515989251 


3180354223819 


0.398511 


0846022322 








26 0.25621] 





53877501424 





0.20656596253983592 
-0.3575093420454635 











-0.35120996186827147 -0.24679309180949208 0.16775460006130793 
-0.1811460330545444 0.03808707142157401 -0.46853660508460787 
-0.35275045425261 -0.19100365291846758 -0.26646095393100677 
-0.2938422406906167 -0.30376401501983874 -0.4274842789454556 


=054 


同样 是 


import org.apache.spark.mllib.1i 





val 
val 
val 


-0.3948204553820511 
0.1967741975874508 
-0.09206257474269655 
0.12315980051885281 
0.43871546256175087 -0 
-0.05209780173017968 0.10583033338605327 -0. 
-0.27600606797384 =0.。 
.172268807944553 
0.3469015236606571 





0.422474587406277 
0.46536643478632944 -0 
0.4376262507870099 


使 用 PCA 降 维 ， 利 用 Pyspark 的 画图 功能 ， 可 以 对 新 生成 的 特征 的 方差 贡献 度 进行 


2.0 

















4105410502598985 


-0.4108875465911952 


这 个 和 矩阵 data， 以 下 我 们 用 PCA 进 行 


0.2825275707788212 





org.apache.spark.mllib.1i 

















org.apache.spark.mllib.1i 





lg.Matrix 
19g.Vectors 
lg.distributed.RowMatrix 














dataRDD = 
mat: RowMatrix = 





sc.parallelize (data, 2) 
new RowMatrix (dataRDD) 


pc: Matrix = mat.computePrincipalComponents (3) 


0.120669150 


-0.3255749878678745 
051 


0.1057375753926894 


25914 0.4698636365472036 











.12704705 
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Varlance rtion 


Ce 
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0.2 
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构建 模型 


-0.407047128194367 
-0.6783914405694824 -0. 
4] ] 





0.3210095555021759 
10049065563002131 
702932 0.2775911848440697 








6473697692806737 
13909137208338707 
-0.349731653791416 
0.13076351966313637 




















分 解 ， 看 一 下 效果 及 与 SVD 的 异同 。SVD 分 解 后 


右 奇异 矩阵 V 与 PCA 降 维 后 的 和 矩阵 pc 很 相似 。 


重要 特征 的 排序 情况 。 


可 视 化 ， 图 2-15 所 示 为 对 hour.csv 数 据 通 


前 过 PCA 处 理 后 


—— Cumulative var 
ndividual var 





6 8 10 区 14 16 


principal components 


图 2-15 ”hout.csv 数 据 的 PCA 分 析 图 


前 面 我 们 介绍 了 准备 阶段 ， 包 括 加 载 数据 、 探 索 数据 、 预 处 理 数 据 等 ， 数 据 准 备 阶段 往往 是 最 费时 间 和 精力 的 ， 这 个 问题 解决 了 ， 常 常 又 会 出 现 新 问题 ， 需 要 返回 多 次 。 一 般 而 言 ， 数 所 准备 阶段 从 时 
间 上 来 说 可 能 要 占据 60% 左 右 ， 有 时 更 多 。 


数据 准备 好 以 后 ， 接 下 来 就 是 构建 模型 。 模 型 是 机 器 学 习 、 数 据 挖 掘 等 的 核心 ， 构 建 模型 涉及 确定 模型 或 算法 、 设 置 参数 、 训 练 模型 等 ， 其 大 致 流程 如 图 2-16 所 示 。 


构建 模型 


选择 算法 训练 模型 





图 2-16 ”构建 模型 流程 


选择 算法 主要 依据 业务 需求 、 数 据 特 征 等 ，Spark 目 前 支持 分 类 、 回 归 、 推 荐 等 这 些 常 用 而 且 重 要 的 算法 ， 具 体 如 表 2-4 所 示 。 如 何 选择 算法 ， 需 要 考虑 业务 需求 、 数 据 特征 、 算 法 适应 性 、 个 人 经 验 
等 ， 当 然 ， 也 可 选择 几 种 方法 ， 然 后 进行 比较 ， 或 采用 集成 学 习 的 方式 。 复 合 多 种 算法 也 是 选项 之 一 ， 如 先 采 用 聚 类 方法 对 数据 进行 聚 类 ， 然 后 对 不 同类 别 的 数据 进行 预测 或 推荐 ， 有 时 会 得 到 更 好 的 结 
果 。 如 果 你 觉得 选择 比较 难 或 还 不 好 确定 ， 可 以 先 从 简单 或 熟悉 的 算法 开始 ， 然 后 ， 不 断 完善 和 优化 。 


表 2-4 Spark ML 目前 支持 的 算法 


米 型 Spark ML 支持 的 算法 
逻辑 回归 (Binomial logistic regression、Multinomial logistic regression) 
决 琐 树 分 类 (Decision tree classifier ) 
随机 和 森林 分 类 (Random forest classifier ) 
分 类 梯度 提升 决策 树 分 类 (Gradient-boosted tree classifier) 
多 层 感 知 机 分 类 (Multilayer perceptron classifier) 
一 对 多 法 分 类 (One-vs-Rest classifier ) 
朴素 贝 叶 斯 (naive Bayes) 
线性 回归 (Linear regression ) 
广义 线性 回归 (Generalized linear regression ) 
决 朱 树 回 归 (Decision tree regression ) 
回归 随机 森林 回归 (Random forest regression ) 
梯度 提升 决策 树 回 归 (Gradient-boosted tree regression ) 
生存 回归 (Survival regression ) 
保 序 回归 (Isotonic regression ) 
推 在 协调 过 滤 (Collaborative filtering) 
K- 均值 (k-means ) 
高 斯 混合 (Gaussian Mixture Model ) 
主题 模型 (latent Dirichlet allocation (LDA ) ) 
二 分 K 均值 (bisecting k-means) 


确定 算法 后 ， 一 般 还 需要 设置 一 些 参数 ， 如 训练 决策 树 时 需要 选择 迭代 次 数 、 纯 度 计 算 方法 、 树 的 最 大 高 度 等 ， 此 外 ， 对 准备 好 的 数据 需要 进行 划分 ， 一 般 划 分 为 训练 数据 和 测试 数据 ， 有 的 会 把 训练 
数据 进一步 划分 为 训练 数据 集 、 验 证 数据 集 。Spark 提 供 多 种 随机 划分 数据 的 方法 ， 如 randomSplit、CrossValidator 等 。 这 些 方法 的 使 用 在 2.9 节 中 会 具体 说 明 。 


训练 数据 用 于 训练 模型 ， 测 试 数据 用 于 验证 模型 ， 因 这 个 环节 的 验证 是 在 模型 训练 过 程 实现 的 ， 所 以 它 一 般 也 认为 隶属 于 模型 建立 过 程 。 这 种 划分 数据 进行 验证 的 方法 一 般 称 为 交叉 验证 
(CrossValidator，CV) ， 有 些 交 叉 验 证 把 数据 分 成 K 组 ， 如 K 折 交叉 验证 (K-fold Cross Validator，K-CV) ， 在 k 折 -交叉 验证 中 ， 不 重复 地 随机 将 数据 集 划 分 为 K 对 ， 如 K=3， 则 将 产生 3 个 (训练 ， 测 
试 ) 数据 集 对 ， 每 个 数据 集 使 用 2/3 的 数据 进行 训练 ，1/3 的 数据 进行 测试 。 这 样 会 得 到 3 个 模型 ， 用 这 3 个 模型 的 平均 数 作为 最 终 模型 的 性 能 指标 。K-CV 可 以 有 效 避 免 欠 学 习 状 态 的 发 生 ， 其 结果 也 比较 具 
有 说 服 性 。 


2.7 ”模型 评估 


模型 构建 以 后 ， 接 下 来 就 需要 对 模型 的 性 能 、 与 目标 的 切合 度 等 进行 一 些 评估 ， 模 型 评估 是 模型 开发 过 程 中 不 可 或 缺 的 一 部 分 。 在 构建 模型 的 过 程 中 ， 会 产生 一 些 评估 指标 ， 如 精确 度 、ROC、RMSE 
等 ， 这 些 指 标 是 重要 而 且 基 础 的 ， 但 不 是 唯一 和 最 终 指标 ， 除 了 这 些 指 标 外 ， 我 们 还 应 该 评估 模型 对 业务 的 提示 或 商业 目标 的 达成 等 方面 的 贡献 。 一 个 好 的 模型 不 但 要 有 好 的 技术 指标 ， 更 要 为 解决 实际 问 
题 提 供 帮助 ， 有 时 后 者 显得 更 为 重要 。 


spark 中 常用 的 几 个 评估 算法 如 下 。 


1) 均 方差 (MSE, Mean Squared Error) : 





式 中 : prec 为 预测 值 ，act 为 实际 值 ，n 为 总 样本 数 。 


2) 均 方 根 差 (RMSE, Root Mean Squared Error) : 





3) 平均 绝对 值 误差 (MAE, Mean Absolute Error) : 








在 了 解 正确 率 、 准 确 率 之 前 ， 我 们 先 看 一 个 所 谓 的 混淆 矩阵 (confusion matrix) ， 如 图 2-17 所 示 。 








预测 值 


下 (了 P) 负 (NN) 





2-17 混淆 矩阵 
混淆 和 矩 阵 为 是 一 个 简单 矩阵 ， 用 于 展示 一 个 二 分 类 器 的 预测 结果 ， 其 中 T 为 TrTue、F 为 False、N 为 Negative、P 为 Postitive。 
. 真正 (TP) : 被 模型 预测 为 正 的 正 样本 数 ; 可 以 称 作 判断 为 真 的 正确 率 ; 
" 真 负 (TN) : 被 模型 预测 为 负 的 负 样 本 数 ; 可 以 称 作 判断 为 假 的 正确 率 ; 
. 假 正 (FP) : 被 模型 预测 为 正 的 负 样 本 数 ; 可 以 称 作 误 报 率 ; 
` 假 负 (FN) : 被 模型 预测 为 负 的 正 样本 数 ; 可 以 称 作 漏 报 率 。 


正确 率 (Accuracy) ， 反 映 了 分 类 器 对 整个 样本 的 判定 能 力 一 能 将 正 的 判定 为 正 ， 负 的 判定 为 负 。 





A= (TP+TN) / (P+N) = (TP+TN) / (TP+FN+FP+TN) 

错误 率 (Error) : 

E= (FP+FN) / (P+N) = (FP+FN) / (TP+FN+FP+TN) 

准确 率 (Precision) ， 反 映 了 被 分 类 器 判定 的 正 例 中 真正 的 正 例 样本 的 比重 : 
P=TP/ (TP+FP) 

召回 率 (Recall) ， 反 映 了 被 正确 判定 的 正 例 占 总 的 正 例 的 比重 。 

R=TP/ (TP+FN) =1-FN/T; 

F1-Measure: 

F1=2P*R/ (P+R) 

真 阳性 率 (TPR) 代表 分 类 器 预测 的 正 类 中 实际 正 实例 占 所 有 正 实例 的 比例 : 
TPR=TP/ (TP+FN) 

假 阳 性 率 (FPR) 代表 分 类 器 预测 的 正 类 中 实际 负 实 例 占 所 有 负 实 例 的 比例 : 
FPR=FP/ (FP+TN) 


以 上 这 些 都 属于 静态 的 指标 ， 当 正 负 样本 不 平衡 时 会 存在 严重 的 问题 。 极 端 情况 下 ， 比 如 正 负 样本 比例 为 1: 99 (有 些 领域 并 不 少见 ) ， 那 么 一 个 分 类 器 只 要 把 所 有 样本 都 判 为 负 ， 它 就 拥有 了 99% 的 
精确 度 ， 但 这 时 的 评价 指标 是 不 具有 参考 价值 的 。 另 外 ， 很 多 分 类 器 都 不 是 简单 地 给 出 一 个 正 或 负 (0 或 1) 的 分 类 判定 ， 而 是 给 出 一 个 分 类 的 倾向 程度 ， 比 如 贝 叶 斯 分 类 器 输出 的 分 类 概率 。 对 于 这 些 分 类 
器 ， 当 你 取 不 同 阔 值 时 ， 就 可 以 得 到 不 同 的 分 类 结果 及 分 类 器 评价 指标 ， 依 此 人 们 又 发 明 出 ROC 曲 线 以 及 AUC (ROC 曲 线 包 围 面积 ) 指标 来 衡量 分 类 器 的 总 体 可 信 度 。ROC 曲 线 将 FPR 和 TPR 定义 为 xX 和 y 
轴 ， 这 样 就 描述 了 真 阳性 和 假 阳 性 在 不 同 决策 阔 值 下 的 关系 。AU(C 越 大 说 明 模 型 性 能 越 好 ，ROC 曲 线 如 图 2-18 所 示 。 
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下 面 通 过 一 个 实例 说 明 Spark 一 些 评估 指标 的 使 用 : 
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ROC curve of SVM (AUC = 0.6202) 


0.4 


0.6 


False Positive Rate 


图 2-18 ”ROC 曲线 示意 图 
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import org.apache.spark.ml 
import org.apache.spark.ml 
import org.apache.spark.ml 
import org.apache.spark.ml 
import org.apache.spark.sq] 
import org.apache.spark.sq] 
import org.apache.spark.ml 





lipb.evaluation.RegressionMetrics 


RegressionModel 


val path="file:///u01l/bigdata/spark/data/mllib/sample libsvm data.txt" 
val data=spark.read.format ("libsvm") .load (path) 




















val Array (trainingData, testData) = data.randomSplit (Array (0.7, 0.3), seed 








二 ] 234] ,) 
/ /参数 说 明 





// threshold 变 量 用 来 控制 分 类 的 阔 值 ,默认 值 为 0.5 


val lr = new LogisticRegression () 














.SetThreshold (0.6) .setMaxI 





























val predictions = lrModel. 














Predqictions .show () 





// 计 算 MSE、MAE、 RMSE 等 











transform(testData) 


ter (10) .setRegParam (0.3) .set] 
val lrModel = lr.fit (trainingData) 





val evaluator = new BinaryClassificationEvaluator () 








.SetLabelCol ("labe 


Le 











val accuracy = evaluator.evaluate (predictions) 








Val rm2 = new RegressionMetrics (predictions.select ("prediction"™, 




















println("MSE: "+ rm2.meanSquaredError) 
printlin ("MAE: "+ tm2.meanAbsolLuteError) 
println ("RMSE Squared: " + tm2 .rootMeanSdquared] 















































// 将 其 作为 多 分 类 结果 进行 评估 , 可 计算 Fl、 准确 率 、 召 回 率 、 正 确 率 


val multiclassClassificationEvaluator = new MulticlassClassi 


Error) 


Fi cationl 


ElasticNetParam (0.8) 








def printlnMetric (metricName: String): Unit = { 








printlin (metricName + " 











= "+ multiclassClassi 








ficationEvaluator.setMetricName 








(metricName) .evaluate (predictions)) 


} 














printlnMetric 
printlnMetric 
printlnMetric 



































printlnMetric("accuracy")//accuracy = 0.9642857] 


// 将 其 作为 二 分 类 结果 进行 评估 ,可 计算 areaUnder 
































ROC y 


"£1")//f£1 = 0.9646258503401359 
"weightedPrecision")//weightedPrecision = 0.9675324675324675 











areaUnderPR 
assificationEvaluator () 








( 
( 
("weightedRecall")//weightedRecall = 0.9642857142857142 
( L42857143 








val binaryClassificationEvaluator = new BinaryC] 

















def printlnMetric (metricName: String): Unit = { 











printlin (metricName + " = " + binaryClassi 








ficationEvaluator 





(metricName) .evaluate (predictions)) 


} 





printlnMetric ("areaUnderROC") 























.SetMetricName 


// 结 果 为 areaUnderROC = 0.9944444444444444 


printlnMetric ("areaUnderPR") // 结 果 为 areaUnderPR = 0.9969948018193632 
























































































































































// 分 类 正确 且 分 类 为 1 的 样本 数量 TP 是 17 

Predictions .filter(S"1abe1l" === S$"prediction") .filter($"label"===1) .count 

// 分 类 正确 且 分 类 为 0 的 样本 数量 TN 是 10 

Predictions .filter(S"1abe1l" === S$"prediction") .filter($"label"===0) .count 

// 分 类 错误 且 分 类 为 0 的 样本 数量 FN 是 1 
predictions.filter($"label" !== $"prediction") .filter($"prediction"===0) .count 
// 分 类 错误 且 分 类 为 1 的 样本 数量 FP 是 0 

predictions.filter($"label™" !== S$"prediction") .filter($"prediction"===1) .coun 


























准确 率 : TP/ (TP+FP) =17/ (17+0) =1 


召回 率 : TP/ (TP+FN) =17/ (17+1) =0.944444 








"label") .rdd.map (x => (x (0) .as] 


Evaluator () 


F [Double], ¥(L) 


.dsS] 








Ff [Doublel]))) 


2.8 组 装 


前 面 几 节 我 们 对 数据 集 进 行 了 探索 ， 之 后 进行 大 量 的 数据 清理 、 转 换 等 数据 预 处 理工 作 ， 接 着 进行 构建 模型 、 评 佑 模型 。 评 佑 模型 前 我 们 需要 将 数据 集 随机 划分 为 训练 集 和 测试 集 。 假 如 数据 有 变化 ， 
如 新 增 数据 ， 如 何 保证 训练 集 和 测试 集 上 的 操作 保持 一 致 ， 如 果 数 据 清理 、 数 据 转 换 等 有 很 多 步骤 ， 如 何 保证 这 些 步骤 依次 执行 ? 


采用 Spark Pipeline 能 很 好 解决 这 些 问题 。 也 就 是 说 ， 我 们 只 要 把 这 些 任 务 作 为 Pipeline 的 Stage， 按 照 其 本 身 的 执行 次 序 把 这 些 stage 组 装 到 一 个 Pipeline 上 即 可 。 当 然 ， 如 果 任 务 比 较 复杂 ， 我 们 也 可 
以 采用 多 个 Pipeline， 然 后 把 这 些 Pipeline 组 装 到 一 个 新 的 Pipeline 中 。 


组 装 的 一 般 步 又 如 下 : 


1) 创建 Pipeline， 将 各 个 Stage 依 次 组 装 在 一 起 ， 如 : 


val pipeline = new Pipeline() 
.SetStages (Array (tokenizer, hashingTF, 1r)) 





2) 在 训练 集 上 拟 合 这 个 Pipeline 





val model = pipeline.fit (training) 








3) 在 测试 集 上 做 预测 。 








model .transform (test) .select ("label", "prediction") 





通过 这 种 方式 ， 既 可 保证 stage 的 有 序 执行 ， 也 可 保证 在 训练 集 和 测试 集 上 所 做 逻辑 操作 的 一 致 性 ， 这 里 只 是 举 了 一 个 简单 例子 ， 下 一 章 将 详细 介绍 有 关 Pipeline 的 内 容 ， 同 时 在 第 7 章 后 还 有 详细 的 使 
用 实例 。 


2.9 ”模型 选择 或 调 估 


在 ML 中 一 个 重要 的 任务 就 是 模型 选择 ， 或 者 使 用 给 定 的 数据 为 给 定 的 任务 寻找 最 适合 的 模型 或 参数 。 这 个 过 程 又 称 调 优 。 调 优 可 以 是 对 单个 阶段 进行 调 优 ， 也 可 以 一 次 性 对 整个 Pipeline 进 行 调 优 。 
MLlib 支 持 使 用 类 似 CrossValidator 和 TrainValidationSplit 这 样 的 工具 进行 模型 选择 。 这 些 工具 需要 以 下 组 件 : 
. Estimator: 用 户 调 优 的 算法 或 Pipeline。 
ParamMap 集 合 : 提供 参数 选择 ， 有 时 又 称 用 户 查 找 的 参数 网 格 (parameter grid) 。 参 数 网 格 可 以 使 用 ParamGtidBuildet 来 构建 。 
. Evaluator: 衡量 模型 在 测试 数据 上 的 拟 合 程度 。 
模型 选择 工具 工作 原理 如 下 : 
1) 将 输入 数据 划分 为 训练 数据 和 测试 数据 。 
2) 对 于 每 个 (训练, 测试) 对 ， 遍 历 一 组 ParamMaps。 用 每 一 个 ParamMap 人 参数 来 拟 合 估计 器 ， 得 到 训练 后 的 模型 ， 再 使 用 评估 器 来 评估 模型 表现 。 


3) 选择 性 能 表现 最 优 模 型 对 应 参数 表 。 


交叉 验证 (CrossValidator) 会 将 数据 集 切 分 成 K 折 数据 集合 ， 分 别 用 于 训练 和 测试 。 例 如 ，K=3 时 ，CrossValidator 会 生成 3 个 (训练 数据 ， 测 试 数据) 对 ， 每 一 个 数据 对 的 训练 数据 占 2/3， 测 试 数据 
占 1/3。 为 了 评估 一 个 ParamMap，CrossValidator 会 计算 这 3 个 不 同 的 (训练 ， 测 试 ) 数据 集 对 在 Estimator 拟 合 出 的 模型 上 的 平均 评估 指标 。 


在 找 出 最 好 的 ParamMap 后 ，CrossValidator 会 利用 此 ParamMap 在 整个 训练 集 上 训练 〈fit) 出 一 个 泛 化 能 力 强 、 误 差 相对 小 的 最 佳 模型 ， 整 个 过 程 处 于 流程 化 管理 之 中 ， 其 工作 流程 如 图 2-19 所 示 。 


1. 随机 生成 天 对 数据 集 


for iin k 2. 在 traini 上 训练 模型 









(traini, testi) | > 3. 在 testi 上 做 预测 


(traink, testk) 


feature&label 


5. 比较 label 与 4. 存储 testi 上 的 


predictions predictions 





Tm] 


Pipeline | 





图 2-19 ” Spark CrossValidator 流 程 图 


虽然 利用 CrossValidator 来 训练 模型 可 以 提升 泛 化 能 力 ， 但 其 代价 也 比较 高 ， 如 选择 K=3、regParam= (0.1，0.01) 、numlters= (10，20) 这 样 就 需要 对 模型 训练 3x2x2=12 次 。 然 而 ， 对 比 启发 
式 的 手动 调 优 ， 这 是 选择 参数 的 行 之 有 效 的 方法 


2.9.2 训 





交叉 验证 的 代价 比较 高 昂 ， 为 此 Spark 也 为 超 参 数 调 优 提 供 了 训练 -验证 切 分 (TrainValidationSplit) 。TrainValidationSplit 他 | 建 单一 的 (训练 ， 测 试 ) 数据 集 对 。 它 使 用 trainRatio 参 数 将 数据 集 切 分 
成 两 部 分 。 例 如 ， 当 设置 trainRatio=0.8 时 ，TrainValidation-Ssplit 会 对 数据 进行 如 下 切 分 : 80% 作 为 数据 集 ，20% 作 为 验证 集 ， 以 此 来 生成 训练 、 测 试 集 对 ， 并 最 终 使 用 最 好 的 ParamMap 和 完整 的 数据 
集 来 拟 合 评估 器 。 


相对 于 CrossValidator 对 每 一 个 参数 进行 K 次 评估 ，TrainValidationSplit 只 对 每 个 参数 组 合 评估 1 次 ( 见 图 2-20 所 示 ) 。 因 此 它 的 评估 代价 没有 那么 高 ， 但 是 当 训 练 数据 集 不 够 大 的 时 候 其 结果 相对 不 够 
可 信 。 


1. 随机 划分 train 与 2. 在 train 上 训练 模型 
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图 2-20 ”Spatk TrainValidationSplit 流 程 图 


2.10 ”保存 模型 


训练 、 优 化 模型 后 ， 我 们 需要 保存 模型 ， 然 后 把 模型 移植 或 部 署 到 其 他 环境 中 。 
本 节 主 要 介绍 如 何 保存 模型 、 如 何 部 署 模型 等 内 容 ， 以 下 是 具体 示例 代码 。 


1) 保存 拟 合 后 的 流水 线 到 磁盘 : 


model .write.overwrite() .save("/tmp/spark-logistic-regression-model") 





2) 保存 未 拟 合 的 流水 线 到 磁盘 : 


pipeline.write.overwrite() .save("/tmp/spark-logistic-regression-model") 








3) 把 拟 合 后 的 流水 线 部 署 到 其 他 环境 中 : 








val sameModel = PipelineModel .load("/tmp/spark-logistic-regression-model") 


2.11 小 结 


这 一 章 主要 介绍 了 如 何 构建 Spark 学 习 系 统 以 及 构建 的 一 般 步骤 等 。 实 际 上 ， 构 建 Spark 学 习 系 统 与 我 们 构建 其 他 平台 的 学 习 系统 基本 相同 ， 一 般 都 包括 数据 加 载 、 数 据 探 索 、 数 据 预测 、 构 建 模 型 、 训 
练 模型 、 评 佑 模型 、 优 化 模型 等 步骤 ， 但 这 里 我 们 特别 增加 了 利用 Pipeline 组 装 各 个 任务 (stage) 的 内 容 ， 这 也 是 Spark ML 中 基于 DataFrame 数 据 集 的 重要 内 容 ， 下 一 章 我 们 将 详细 介绍 有 关 Pipeline 的 


内 容 。 


第 3 章 ”ML Pipeline 原 理 与 实战 


Spark MLIib 是 Spark 的 重要 组 成 部 分 ， 也 是 最 早 推出 的 库 之 一 ， 其 基于 RDD 的 AP1， 算 法 比较 丰富 ， 比 较 稳 定 ， 也 比较 好 用 。 但 是 如 果 目 标 数据 集结 构 复杂 需要 多 次 处 理 ， 或 者 是 对 新 数据 需要 结合 多 
个 已 经 训练 好 的 单个 模型 进行 综合 计算 时 ， 使 用 MLIib 将 会 让 程序 结构 复杂 ， 甚 至 难于 理解 和 实现 。 为 改变 这 一 局 限 性 ， 从 Spark 1.2 版 本 之 后 引入 了 ML Pipeline， 经 过 多 个 版 本 的 发 展 ，Spark ML 克服 了 
MLlib 在 处 理 复杂 机 器 学 习 问 题 的 一 些 不 足 (如 工作 比较 复杂 ， 流 程 不 清晰 等 ) ， 向 用 户 提供 基于 DataFrame 之 上 的 更 加 高 层次 的 API 库 ， 以 更 加 方便 的 构建 复杂 的 机 器 学 习 工 作 流 式 应 用 ， 使 整个 机 器 学 习 
过 程 变 得 更 加 易 用 、 简 洁 、 规 范 和 高 效 。Spark 的 Pipeline 与 Scikit 中 Pipeline 的 功能 相近 、 理 念 相同 。 本 章 主 要 介绍 Spark ML 中 Pipeline 的 有 关内 容 。 


本 章 主要 介绍 ML Pipeline 的 相关 内 容 ， 包 括 : 
. Pipeline 简 介 
”DataFtame 
` 构成 Pipeline 的 一 些 组 件 
. 介绍 pipeline 的 一 般 原理 


使 用 pipeline 的 几 个 实例 


3.1 Pipeline 人 简介 


ML 提倡 使 用 Pipeline， 一 般 翻译 为 流水 线 ， 以 便 将 多 种 算法 更 容易 地 组 合成 单个 流水 线 或 工作 流程 。 一 个 Pipeline 在 结构 上 会 包含 一 个 或 多 个 Stage， 每 一 个 Stage 都 会 完成 一 个 任务 ， 如 数据 处 理 、 数 
据 转 化 、 模 型 训练 、 参 数 设置 或 数据 预测 等 ， 其 中 两 个 主要 的 Stage 为 Transformer 和 Estimator。Transformer 主 要 是 用 来 操作 一 个 DataFrame 数 据 并 生成 另外 一 个 DataFrame 数 据 ， 比 如 决策 树 模 型 、 一 
个 特征 提取 工具 ， 都 可 以 抽象 为 一 个 Transformer。Estimator 则 主要 是 用 来 做 模型 拟 合 ， 用 来 生成 一 个 Transformer。 这 些 Stage 有 序 组 成 一 个 Pipeline。 与 Pieline 相 关 的 概念 有 : DataFrame、 


Transformer、Estimator、Parameter 等 。 


3.2 DataFrame 


说 到 DataFrame， 使 用 过 Pandas、R 的 朋友 应 该 比较 熟悉 ， 它 是 一 种 类 似 于 关系 型 数据 库 的 表 ， 使 用 和 维护 都 非常 方便 。spark 的 DataFrame 是 基于 早期 版 本 中 的 SchemaRDD， 所 以 使 用 的 是 分 布 式 
大 数据 处 理 的 场景 。Spark DataFrame 以 RDD 为 基础 ， 但 是 带 有 Schema 信息 ， 可 以 从 常规 隐 式 地 或 明确 地 创建 RDD， 它 类 似 于 传统 数据 库 中 的 二 维 表 格 。 它 被 ML Pipeline 用 来 存储 源 数据 。DataFrame 
可 以 保存 各 种 类 型 的 数据 ， 如 我 们 可 以 把 特征 向 量 存 储 在 DataFrame 的 一 列 中 ， 这 样 用 起 来 非常 方便 。 


以 下 通过 一 个 实例 来 说 明 DataFrame 的 创建 、 操 作 等 内 容 : 


// 以 一 个 简单 客户 文件 customer .txt 为 例 , 含 name age, gender 三 列 
$cat customer .txt 
name, age, gender 








高 峰 , 31,M 

// 创 建 DataFrame 

import org.apache.spark.sql.SparkSession 
import org.apache.spark.sql.DataFrame 




















val spark = SparkSession.builder () 
.appName ("Spark SQL basic example") 
.Config("spark.some.config.option", "some-value") 
.getOrCreate () 
// 创 建 DataFrame 
val qfl = Spark.readq.ocoption ("headqer"，true) .format ("csv") .load("file:///home/hadoop/data/customer.csv") 


// 转换 字符 类 型 

val df2 = df1l.select 

dfl ("name") .cast ("String"), 

dfl1 ("age") .cast ("Double"), 

dfl1 ("gender") .cast ("String")) 

// 显 示 df2 的 Schema 

df2.printSschema () 

root 
|-- name: string (ulladle. = true) 
|-- age: double (nullable = = tne) 
|-- gender: string (nullable = true) 

// 创建 视图 ,后 续 可 以 把 视图 作为 表 样 使 用 


df2 .createOrReplaceTempView ("customer") 

// 查 询 

val custl1 = spark.sgql ("SELECT * FROM customer WHERE age BETWEEN 30 AND 35") 
cust1 .limit (5) .Show 






































一 、 






































































































































十 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 十 
name| agelgender 
十 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 - 
张 宏 130.0| MI 
高 峰 |31.0| M| 
赵 建 军 | 32.0| M| 
李 俊 132.0| MI| 
| M| 











Val cust2 = spark.sqgql ("SELECT * FROM customer WHERE gender like 'M'") 
cust2.1imit (5) .Show 





























name| age Ben 




















十 一 一 一 一 Pp ep 所 
张 宏 |30.0| M | 
高 峰 |31.0| M| 
王 华 |40.0| MI 
头 建 军 |32.0| M| 
李 俊 |32.0| MI 

十 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 十 


3.3 ”Pipeline 组 件 


前 面 提 到 Pipeline 组 件 主 要 包括 Transformer 和 Estimator， 下 面 来 详细 介绍 


1.Transformer 


Transformer 一 般 翻 译 成 转换 器 ， 是 一 个 Pipeline Stage， 转 换 器 包含 特征 变化 和 学 习 模 型 。 从 技术 上 来 说 ， 转 化 器 通过 方法 transform () ， 在 原始 数据 上 增加 一 列 或 者 多 列 来 将 一 个 DataFrame 转 为 


另 一 个 DataFrame。 如 : 
1) 一 个 特征 转换 器 输入 一 个 DataFrame， 读 取 一 个 文本 列 ， 将 其 映射 为 新 的 特征 向 量 列 。 输 出 一 个 新 的 带 有 特征 向 量 列 的 DataFrame。 
2) 一 个 学 习 模 型 转换 器 输入 一 个 DataFrame， 读 取 包 括 特征 向 量 的 列 ， 预 测 每 一 个 特征 向 量 的 标签 。 输 出 一 个 新 的 带 有 预测 标签 列 的 DataFrame。 
2.Estimator 


Estimator 可 以 被 翻译 成 评估 器 或 适配器 ， 在 Pipeline 里 通常 是 被 用 来 操作 DataFrame 数 据 并 生产 一 个 Transformer， 一 个 分 类 算法 就 是 一 个 Estimator， 因 为 它 可 以 通过 训练 特征 数据 而 得 到 一 个 分 类 
模型 。 估 计 器 用 来 拟 合 或 者 训练 数据 的 学 习 算 法 或 者 任何 算法 。 从 技术 上 来 说 ， 估 计 器 通过 调用 fit () 方法 ， 接 受 一 个 DataFrame 产 生 一 个 模型 ， 这 个 模型 就 是 一 个 Transformer。 比 如 ， 逻 辑 回 归 就 是 一 
个 估计 器 ， 通 过 调用 fit () 来 产生 一 个 逻辑 回归 模型 。 


3.4 ”Pipeline 原 理 


要 构建 一 个 Pipeline， 首 先 需要 定义 Pipeline 中 的 各 个 Stage， 如 指标 提取 和 转换 模型 训练 等 。 有 了 这 些 处 理 特定 问题 的 Transformer 和 Estimator， 我 们 就 可 以 按照 具体 的 处 理 逻 辑 来 有 序 地 组 织 Stage 
并 创建 一 个 Pipeline。 


流水 线 由 一 系列 有 顺序 的 阶段 指定 ， 每 个 状态 的 运行 是 有 顺序 的 ， 输 入 的 DataFrame 通 过 每 个 阶段 进行 改变 。 在 转换 器 阶段 ，transform () 方法 被 调用 于 DataFrame 上 。 对 于 估计 器 阶段 ，fit () 方 
法 被 调用 来 产生 一 个 转换 器 ， 然 后 该 转换 器 的 transform () 方法 被 调用 在 DataFrame 上 。 图 3-1 简 单 说 明了 文档 处 理工 作 流 的 运行 过 程 。 


(Estimator) Regression 








Logistic 
ws Ea ey = | E> Regression 
CR Words Feature Mode! 
text Vectors 


图 3-1 Pipeline 在 训练 数据 上 的 流程 


在 图 3-1 中 ， 第 一 行 代表 流水 线 处 理 的 三 个 阶段 。 第 一 、 二 个 阶段 是 转换 器 ， 第 三 个 逻辑 回归 是 估计 器 。 底 下 一 行 代表 流水 线 中 的 数据 流 ， 圆 简 指 DataFrame。 流 水 线 的 fit () 方法 被 调用 于 原始 的 


DataFrame 中 ， 里 面包 含 原 始 的 文档 和 标签 。 分 词 器 的 transform () 方法 将 原始 文档 分 为 词语 ， 添 加 新 的 词语 列 到 DataFrame 中 。 哈 希 处 理 的 transform () 方法 将 词语 列 转换 为 特征 向 量 ， 添 加 新 的 向 
量 列 到 DataFrame 中 。 然 后 ， 因 为 逻辑 回归 是 估计 器 ， 流 水 线 先 调用 逻辑 回归 的 fit () 方法 来 产生 逻辑 回归 模型 。 如 果 流 水 线 还 有 其 他 更 多 阶段 ， 在 将 DataFrame 传 入 下 一 个 阶段 之 前 ， 流 水 线 会 先 调用 逻 
辑 回 归 模 型 的 transform () 方法 。 


整个 流水 线 是 一 个 估计 器 。 所 以 当 流 水 线 的 fit () 方法 运行 后 ， 会 产生 一 个 流水 线 模型 ， 流 水 线 模型 是 转换 器 。 流 水 线 模型 会 在 测试 时 被 调用 ， 图 3-2 说 明了 它 的 用 法 。 
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图 3-2 Pipeline 在 测试 数据 上 的 流程 
在 图 3-2 中 ， 流 水 线 模型 和 原始 流水 线 有 同样 数目 的 阶段 ， 然 而 原始 流水 线 中 的 估计 器 此 时 变 为 了 转换 器 。 当 流水 线 模型 的 transform () 方法 被 调用 于 测试 数据 集 时 ， 数 据 依次 经 过 流水 线 的 各 个 阶 


段 。 每 个 阶段 的 transform () 方法 更 新 数据 集 ， 并 将 之 传 到 下 个 阶段 。 


流水 线 和 流水 线 模型 有 助 于 确认 训练 数据 和 测试 数据 经 过 同样 的 特征 处 理 流 程 。 以 上 两 图 如 果 合并 为 一 图 ， 可 用 图 3-3 来 表达 。 


(1) Pipeline.fit 


poie Pipeline.predict 


fitt&Transform 
Transform 
ftw Transform 
国 | LogisticReg 
fit oi ression lranstorm 


LogisticReg Predict 
ression se 
Model 





图 3-3 ”Spatk pipeline 流 程 图 


其 中 Pipeline 及 LogisticRegression 为 Estimator, Tokenizer、HashingTF、LogisticRegression Model 为 Transformer。 


3.5 ”Pipeline 实 例 


3.5.1 使 用 Estimator、Transformer 和 Param 的 实例 


在 机 器 学 习 整 个 过 程 中 ， 特 征 转换 、 特 征 选 择 、 派 生 特 征 等 工作 ， 一 般 需 要 占据 大 部 分 时 间 ， 现 在 ML 提供 了 很 多 Transformer， 如 OneHotEncoder、stringlndexer、PCA、Bucketizer、Word2vec 
等 ， 利 用 这 些 函 数 可 极 大 提高 工作 效率 。 


以 下 通过 实例 说 明 如 何 使 用 ML 库 中 的 Estimaor、Transformer 和 Param 等 。 








mport org. apache.spark.ml .classification.LogisticRegression 
import org.apache.spark.ml.linalg. {Vector, Vectors} 

import org.apache.spark.ml .param.ParamMap 

import org.apache.spark.sqdl .Row 


























// 从 (标识 、 特 征 ) 元 组 开始 训练 数据 








val training = spark.createDataFrame (Seq( 
(1.0, Vectors.dense(0.0, 1.1, 0.1)), 
(0.0, Vectors.dense(2.0, 1.0, -1.0)), 
(0.0, Vectors.dense(2.0, 1.3, 1.0)), 
(1.0, Vectors.dense(0.0, 1.2, -0.5)) 














) ) .toDF ("label", "features") 














// 创建 一 个 LogisticRegression 实 例 ,该 实例 是 一 个 估计 器 
val lr = new LogisticRegression () 
// 打印 参数 、 文档 和 任何 默 座 值 


Println("LogisticRegression parameters:\n" + lr.explainParams () + "\n") 


// 我 们 可 以 使 用 setter 方 法 设置 参数 
lr.setMaxIter (10) 
.SetRegParam (0.01) 


// 训练 LogisticRegression 模型 ,这 里 使 用 了 存储 在 1r 的 参数 

val modell = lr.fit (training) 

// 因为 model 是 模型 ( 即 由 估计 器 生成 的 转换 器 ) ,我 们 可 以 查看 它 在 fit () 中 使 用 的 参数 。 
// 打印 参数 (名 称 : 值 ) 对 ,其 中 LogisticRegression 实 例 的 名 称 是 唯一 的 ID 
/7 


printlin("Model 1 was fit using parameters: " + modell.parent .extractParamMap) 


// 我 们 可 以 用 ParamMap 指 令 参 数 , 它 支 持 几 种 指定 参数 的 方法 
val paramMap = ParamMap (lr.maxliter -> 20) 
.put (lr.maxIter，30) // 指 定 1 个 参数 ,这 会 覆盖 原来 的 maxIter 
.put (lr.regParam -> 0.1，1lr.threshold -> 0.55) // 指 定 多 个 参数 












































































































































// 也 可 以 组 合 paramMap 
val paramMap2 = ParamMap (lr.probabilityCol -> "myProbability") // 修改 输出 列 名 
val paramMapCombined = paramMap ++ paramMap2 

















// 现在 使 用 pararMapCombined 参 数学 习 一 个 新 的 模型 

// paramMapCorbined 覆 盖 之 前 通过 1 setx 方 法 股 置 的 所 有 参数 

val model2 = r.fit (training, paramMapCombined) 

printlin("Model 2 was fit using parameters: " + model2.parent .extractParamMap) 


// 准备 测试 数据 
val test = spark.createDataFrame (Seq( 
(1.0, Vectors.dense(-1.0, 1.5, 1.3)), 
(0.0, Vectors.dense(3.0, 2.0, -0.1)), 
(1.0, Vectors.dense (0.0, 2.2, -1.5)) 
) ) .toDF ("label", "features") 




































































// 使 用 Transformer.transform() 方 法 对 测试 数据 进行 预测 。 

// LogisticRegression.transform 将 仅 使 用 \ 特 征 “ 列 。 

// 请 注意 ,modqe12.transform() 输 出 一 个 "myProbapility" 列 ,而 不 是 通常 我 们 先前 通过 
// lr.probabilityCol 参 数 重 命名 的 'Probability 列 。 

model12. transform (test 
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.Select ("features", "label", "myProbability", "prediction") 

.collect () 

.foreach { case Row (features: Vector, label: Double, prob: Vector, prediction: Double) => 
println(s" ($features, $label) -> prob=$prob, prediction=$prediction") 








} 


3.5 ”Pipeline 实 例 


3.5.1 ”使 用 Estimator、Transformer 和 Param 的 实例 


在 机 器 学 习 整 个 过 程 中 ， 特 征 转换 、 特 征 选择 、 派 生 特征 等 工作 ， 一 般 需 要 占据 大 部 分 时 间 ， 现 在 ML 提供 了 很 多 Transformer， 如 OneHotEncoder、Stringlndexer、PCA、Bucketizer、Word2vec 
等 ， 利 用 这 些 函 数 可 极 大 提高 工作 效率 。 


以 下 通过 实例 说 明 如 何 使 用 ML 库 中 的 Estimaor、Transformer 和 Param 等 。 





mport org.apache.spark.ml.classification.LogisticRegression 
import org.apache.spark.ml.linalg. {Vector, Vectors} 

import org.apache.spark.ml .param.ParamMap 

import org.apache.spark.sqgdl .Row 


// 从 (标识 、 特 征 ) 元 组 开始 训练 数据 



































val training = spark.createDataFrame (Seq( 
(1.0, Vectors.dense(0.0, 1.1, 0.1)), 
(0.0, Vectors.dense(2.0, 1.0, -1.0)), 
(0.0, Vectors.dense(2.0, 1.3, 1.0)), 
(1.0, Vectors.dense(0.0, 1.2, -0.5)) 

















) ) .toDF ("label", "features") 





// 创建 一 个 LogisticRegression 实 例 ,该 实例 是 一 个 估计 器 
val lr = new LogisticRegression () 
// 打印 参数 、 文档 和 任何 默认 值 


Println("LogisticRegression parameters:\n" + lr.explainParams () + "\n") 


// 我 们 可 以 使 用 setter 方 法 设置 参数 
lr.setMaxIter (10) 
.SetRegParam (0.01) 


// 训练 LogisticRegression 模型 ,这 里 使 用 了 存储 在 1r 的 参数 
val modell = lr.fit (training) 


// 因为 model 是 模型 ( 即 由 估计 器 生成 的 转换 器 ) ,我 们 可 以 查看 它 在 fit () 中 使 用 的 参数 。 




























































































// 打印 参数 (名 称 : 值 ) 对 ,其 中 Logi sticRegression 实 例 的 名 称 是 唯一 J 下 
// 
println("Model 1 was fit using parameters: " + modell.parent .extractParamMap) 





























// 我 们 可 以 用 ParamMap 指 令 参数 , 它 文 持 几 种 指定 参数 的 方法 
val paramMap = ParamMap (lr.maxlter -> 20) 
.put (lr.maxIter，30) // 指 定 1 个 参数 ,这 会 覆盖 原来 的 maxIter 
.put (lr.regParam -> 0.1，1lr.threshold -> 0.55) // 指 定 多 个 参数 





























// 也 可 以 组 合 paramMap 
val paramMap2 = ParamMap (lr.probabilityCol -> "myProbability") // 修改 输出 列 名 
val paramMapCombined = paramMap ++ paramMap2 














// 现在 使 用 paramMapCombined 参 数学 习 一 个 新 的 模型 

// paramMapCombined 禾 访 之 前 通过 Tr .set* 方 法 设置 的 所 有 参数 

val model2 = r.fit (training, paramMapCombinedqd) 

printlin("Model 2 was fit using parameters: " + model2.parent .extractParamMap) 


// 准备 测试 数据 
val test = spark.createDataFrame (Seq( 
(1.0, Vectors.dense(-1.0, 1.5, 1.3)), 
(0.0, Vectors.dense(3.0, 2.0, -0.1)), 

(1.0, Vectors.dense (0.0, 2.2, -1.5)) 
) ) .toDF ("label", "features") 





















































// 使 用 Transformer.transform () 方 法 对 测试 数据 进行 预测 。 

// LogisticRegression.transform 将 仅 使 用 \ 特 征 “ 列 。 

// 请 注意 ,mode12.transform() 输 出 一 个 "myProbapbilityn" 列 ,而 不 是 通常 我 们 先前 通过 

// lr.probabilityCol 参 数 重 命 名 的 'Probabjility 列 。 

model2.transform(test 
.Select ("features", "label", "myProbability", "prediction") 
.collect () 

.foreach { case Row (features: Vector, label: Double, prob: Vector, prediction: Double) => 

printiln(s" ($features, $label) -> prob=$prob, prediction=$prediction") 

} 
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3.5.2 ”ML 使 用 Pipeline 的 实例 


要 构建 一 个 Pipeline， 首 先 我 们 需要 定义 Pipeline 中 的 各 个 Pipeline Stage， 如 分 词 、 计 算 TF-IDF 及 训练 逻辑 回归 模型 等 。 这 些 Transformer 和 Estimator 创 建 后 ， 我 们 就 可 以 按照 处 理 流 程 组 成 
PipelineStages， 并 创建 一 个 Pipeline， 如 val pipeline=new Pipeline () .setStages (Array (stage1，stage2，.…) ) 。 然 后 ， 把 训练 数据 集 作为 参数 并 调用 Pipeline 实 例 的 fit () 方法 ,之 后 ， 将 以 流 
程 的 方式 来 处 理 原 训练 数据 。 以 下 是 一 个 具体 使 用 Pipeline 的 实例 。 
1.{Pipeline, PipelineModel} 


t m 
import org.apache.spark.ml.classification.LogisticRegression 
import org.apache.spark.ml.feature. {HashingTF, Tokenizer} 

上 m 





import org.apache.spark. 


























import org.apache.spark.ml.linalg.Vector 
import org.apache.spark.sql .Row 


/ /准备 训练 文档 (id 内 容 ,标签 ) 
val training = spark.createDataFrame (Seq( 
(0L, "abc de spark", 1.0), 
(ly “Bad, 0.0) 
(2L, "spark f g h", 1.0), 
(3L, "hadoop mapreduce", 0.0) 
VetoDe ("Id "text"y "label”) 














// 配 置 ML Pipeline, 由 三 个 stage 组 成 , tokenizer、hashingTF 和 ]r 
val tokenizer = new Tokenizer () 
.SetInputCol ("text") 
.SetOutputCol ("words") 
val hashingTF = new HashingTF () 
.SetNumFeatures (1000) 
.SetInputCol (tokenizer.getOutputCol) 
.SetOutputCol ("features") 
val lr = new LogisticRegression () 
.SetMaxIter (10) 
.SetRegParam(0.001 
val pipeline = new Pipeline() 
.SetStages (Array (tokenizer, hashingTF, 1r)) 


// 在 训练 数据 集 上 使 用 Pipelin 


val model = pipeline.fit (training) 
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// Now we can optionally save the fitted pipeline to disk 
// 现 在 可 以 保存 安装 好 的 流水 线 到 磁盘 上 


model .write.overwrite() .save("/tmp/spark-logistic-regression-model") 


// 现 在 可 以 保存 未 安装 好 的 Pipeline 保 存 到 磁盘 上 


pipeline.write.overwrite() .save("/tmp/unfit-lr-model") 


// 装载 模型 
val sameModel = PipelineModel .load("/tmp/spark-logistic-regression-model") 


// 准 备 测试 文档 ,不 包含 标签 (1d， text) 
val test = spark.createDataFrame (Seq( 
(4L, "spark i J] k"), 
(SD; ll I DD) 
(6L, "spark hadoop spark"), 
(7L, "apache hadoop") 
) ) .toDF ("id", "text") 
// 在 测试 文档 上 做 出 预测 
model .transform (test) 
.Select ("id", "text", "probability", "prediction") 

































































.Collect () 
.foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) => 
printlin(s"($id, $text) --> prob=$prob, prediction=$prediction") 








3.6 小 结 


本 章 主 要 介绍 了 流水 线 (pipeline) 的 基本 概念 ， 以 流水 线 的 两 个 组 件 (Transformer 和 Estimator) ， 它 们 是 构成 Pipeline 的 Stage， 把 这 些 Stage 按 照 一 定 次 序 组 装 到 Pipeline 上 ， 就 构成 一 个 流水 
线 ， 这 些 Sstage 包 括 特征 转换 、 特 征 选择 、 模 型 训练 等 任务 ， 然 后 通过 几 个 实例 具体 说 明 Pipeline 的 创建 及 使 用 。 流 水 线 是 一 项 重要 内 容 ， 下 一 章 将 主要 介绍 构成 Pipeline 的 一 些 stage。 熟 练 使 用 这 些 Stage 
有 助 于 提升 我 们 的 开发 效率 。 


第 4 草 ”特征 提取 、 转 换 和 选择 


在 实际 机 器 学 习 项 目 中 ， 我 们 获取 的 数据 往往 是 不 规 汉 、 不 一 致 的 ， 有 很 多 缺失 数据 ， 甚 至 不 少 错误 数据 ， 这 些 数据 有 时 又 称 为 脏 数据 或 噪声 ， 在 模型 训练 前 ， 务 必 对 这 些 脏 数据 进行 处 理 ， 否 则 ， 再 
好 的 模型 ， 也 只 能 脏 数 据 进 ， 脏 数据 出 。 


这 章 我 们 主要 介绍 对 数据 处 理 涉及 的 一 些 操作 ， 主 要 包括 : 
* 特征 提取 


` 特征 转换 





` 特征 选择 


4.1 ”特征 提取 


特征 提取 一 般 指 从 原始 数据 中 抽取 特征 。 





4.1.1 词 频 一 一 逆向 文件 频率 (TF-IDF) 


词 频 一 一 逆向 文件 频率 (TF-IDF) 是 一 种 在 文本 挖掘 中 广泛 使 用 的 特征 向 量化 方法 ， 它 可 以 体现 一 个 文档 中 词语 在 语料库 中 的 重要 程度 。 


词语 由 t 表 示 ， 文 档 由 d 表 示 ,语料库 由 D 表 示 。 词 频 TF (t，d) 是 词语 t 在 文档 q 中 出 现 的 次 数 。 文 件 频率 PDF (t，D) 是 包含 词语 的 文档 的 个 数 。 如 果 我 们 只 使 用 词 频 来 衡量 重要 性 ， 很 容易 过 度 强调 在 
文档 中 经 常 出 现 而 并 没有 包含 太 多 与 文档 有 关 的 信息 的 词语 ， 比 如 “a”，“the” 以 及 “of”。 如 果 一 个 词语 经 常 出 现在 语料库 中 ， 则 意味 着 它 并 没有 携带 特定 的 文档 的 特殊 信息 。 送 向 文档 频率 数值 化 稀 


量词 语 提供 多 少 信息 : 








IDF (1,D)= 10g 


其 中 ，|D| 是 语料库 中 的 文档 总 数 。 由 于 采用 了 对 数 ， 如 果 一 个 词 出 现在 所 有 的 文件 ， 其 IDF 值 变 为 0。 


TFIDF (t,d,D)= TF(L, 


在 下 面 的 代码 段 中 ， 我 们 以 一 组 句子 开始 。 首 先 使 用 分 解 器 Tokenizer 把 句子 划分 为 单个 词语 。 对 每 一 个 句子 ( 词 袋 ) ， 我 们 使 用 HashingTF 将 句子 转换 为 特征 向 量 ， 最 后 使 用 IDF 重 新 调整 特征 向 量 。 
这 种 转换 通常 可 以 提高 使 用 文本 特征 的 性 能 。 











import org.apache.spark.ml.feature. {HashingTF, IDF, Tokenizer} 





val sentenceData = spark.createDataFrame (Sed ( 
(0, "Hi I heard about Spark"), 
(0, "I wish Java could use case classes"), 
(1, "Logistic regression models are neat") 
) ) .toDF ("label", "sentence") 

















val tokenizer = new Tokenizer() .SetInputCol ("sentence") .setOutputCol ("words") 
val wordsData = tokenizer.transform(sentenceData) 
val hashingTF = new 
HashingTF () .setInputCol ("words") .setOutputCol ("rawFeatures") .setNumFeatures (20) 
val featurizedData = hashingTF.transform (wordsData) 
// CountVectorizer 也 可 获取 词 频 向 量 


















































val idf = new IDE() .setInputCol ("rawFeatures") .setOutputCol ("features") 
val idfModel = idf.fit(featurizedData) 
val rescaledData = idfModel .transform (featurizedData) 


rescaledData.select ("features", "label") .take (3) .foreach (Println) 



























































4.1.2 Word2Vec 
Word2vec 是 一 个 Estimator， 它 采用 一 系列 代表 文档 的 词语 来 训练 word2vecmodel。 该 模型 将 每 个 词语 映射 到 一 个 固定 大 小 的 向 量 。word2vecmodel 使 用 文档 中 每 个 词语 的 平均 数 来 将 文档 转换 为 向 
量 ， 然 后 这 个 向 量 可 以 作为 预测 的 特征 ， 来 计算 文档 相似 度 计 算 等 。 


在 下 面 的 代码 段 中 ， 我 们 用 一 组 文档 开始 ， 其 中 每 一 个 文档 代表 一 个 词语 序列 。 对 于 每 一 个 文档 ， 我 们 将 其 转换 为 一 个 特征 向 量 。 此 特征 向 量 可 以 被 传递 到 一 个 学 习 算 法 中 。 


import org.apache.spark.ml.feature.Word2Vec 


// 输入 数据 ,每 行为 一 个 词 袋 ,可 来 自 语句 或 文档 


val documentDF = spark.createDataFrame (Seda ( 
































"Hi I heard about Spark".split(" "), 
"I wish Java could use case classes".split(" "), 
"Logistic regression models are neat".split(" ") 





~ 一 


.map (Tuplel .apply) ) .toDF ("text") 
// 训练 从 词 到 向 量 的 映射 


val word2Vec = new Word2Vec() 
.SetInputCol ("text") 
.SetOutputCol ("result") 
.SetVectorSize (3) 
.SetMinCount (0) 



































val model = wordq2Vec .fit (documentDF') 
val result = model .transform (documentDF,) 
result.select ("result") .take (3) .foreach (Println) 








4.1.3 ”计数 同 量 器 


计数 向 量 器 (Countvectorizer) 和 计数 向 量 器 模型 (Countvectorizermodel) 旨 在 


N 


通 


过 计数 来 将 一 个 文档 转换 为 向 量 。 当 不 存在 先 验 字典 时 ，Countvectorizer 可 作为 Estimator 来 提取 词汇 ， 并 生成 


一 个 Countvectorizermodel。 该 模型 通过 词汇 生成 文档 的 稀疏 表示 ， 然 后 可 以 将 其 传递 给 其 他 算法 ， 如 LDA。 


在 fitting 过 程 中 ，countvectorizer 将 根据 语料库 中 的 词 频 排序 选 出 前 vocabsize 个 词 。 一 个 可 选 的 参数 minDF 也 影响 fitting 过 程 ， 它 指定 词汇 表 中 的 词语 在 文档 中 最 少 出 现 的 次 数 。 另 一 个 可 选 的 二 值 
参数 控制 输出 向 量 ， 如 果 设 置 为 真 ， 那 么 所 有 非 零 的 计数 为 1， 这 对 于 二 值 型 离散 概率 模型 非常 有 用 。 


下 面 用 实例 来 说 明 计 数 向 量 器 的 使 用 。 假 


id | texts 
三 一 = 一 | i 
Q | Array ("a", ou yee 
1 | Array ("a", eu ewe ew Ja) 


设 有 以 下 列 id 和 texts 构 成 的 DataFrame: 


每 行 text 都 是 Array[String] 类 型 的 文档 。 调 用 fit，CountVectorizer 产 生 CountVectorizer-Model。 转 换 后 的 输出 列 “ 向 量 ” 包 含 : 


调用 的 CountVectorizer 产 生词 汇 (a，b，c) 的 CountVectorizerModel， 转 换 后 的 输出 向 量 如 下 : 


id | texts | 
tl i i | 
0 | Array ("a", ep c") 
1 | Array ("a", We ue Mew "a") 


| (3, [0,1,2],l 








每 个 向 量 代表 文档 的 词汇 表 中 每 个 词语 出 现 的 次 数 。 





importorg.apache.spark.ml.feature. {CountVectorizer,CountVectorizerModel} 





val df = spark.createDataFrame (Seq( 
(0,Array (a, "> Vy) ) x 

(1,Array (a, on Ue, ey Va) ) 

) ) .toDF ("id", "words") 


// 从 语料库 中 拟 合 CountVectorizerModgdel 


Val cvModel:CountVectorizerModel=newCountVectorizer () 





.SetInputCol ("words") 
.SetOutputCol ("features") 
.SetVocabSize (3) 

. SetMinDF' (2) 

.fit (df) 


























// 也 可 以 用 先 验 词汇 表 定义 CountVectorizerModel 
val cvm =newCountVectorizerModel (Array ("a", "b","c")) 











.SetInputCol ("words") 
.SetOutputCol ("features") 

































































4.2 ”特征 转换 


id |words features 

0 [a, b, cj (3, [0,1,21,11.0,1.0,1.0]) 

1 [ar pr br cr all (310,1,2],12.0,2.0;1.0|]) 
一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


在 机 器 学 习 中 ， 数 据 处 理 是 一 件 比 较 繁 琐 的 事情 ， 需 要 对 原 有 特征 做 多 种 处 理 ， 如 类 型 转换 、 标 准 化 特征 、 新 增 衍 生 特 征 等 ， 需 要 耗费 大 量 的 时 间 和 精力 编写 处 理 程序 。 不 过 ， 自 从 Spark 推 出 ML 后 ， 
情况 大 有 改观 。Spark ML 包 中 提供 了 很 多 现成 的 转换 器 ,例如 ，Stringlndexer、IndexToString、OneHotEncoder、Vectorindexer， 提 供 了 十 分 方便 的 特征 转换 功能 ， 这 些 转 换 器 类 都 位 于 


org.apache.spark.ml.feature 包 下 。 


4.2.1 分 词 器 


分 词 器 (Tokenization) 将 文本 划分 为 独立 个 体 (通常 为 单词 ) 。 下 面 的 例子 展示 了 如 何 把 句子 划分 为 单词 。RegexTokenizer 基 于 正则 表达 式 提供 更 多 的 划分 选项 。 默 认 情况 下 ， 参 
数 “pattern” (regex，default: “\s+”) 为 划分 文本 的 分 隔 符 。 或 者 ， 用 户 可 以 指定 参数 “gaps” 来 指明 正则 “patten” 表 示 的 是 “tokens” 而 不 是 分 隔 符 ， 这 样 来 为 分 词 结果 找到 所 有 可 能 匹配 的 


情况 。 








importorg.apache.spark.ml.feature. {RegexTokenizer,Tokenizer} 








importorg.apache.spark.sql.functions. 





val sentenceDataFrame = spark.createDataFrame (Sed ( 





(0, "Hi I heard about Spark"), 





(1,"I wish Java could use case classes"), 
(2, "Logistic,regression,models,are,neat") 





) ) .toDF ("id", "sentence") 











val tokenizer =newTokenizer() .SetInputCol ("sentence") .setOutputCol ("words") 











val regexTokenizer =newRegexTokenizer () 








.SetInputCol ("sentence") 
.SetOutputCol ("words") 














.SetPattern("™\ \W") // 或 者 使 用 .setPattern(\\\w+”) .setGaps (false) 














val countTokens = udf { (words:Seql[lString])=> words.length } 














val tokenized = tokenizer.transform(s 
tokenized.select ("sentence", "words") 
.WithColumn ("tokens", countTokens (col 














Hi I heard about Spark 
I wish Java could use case classes 
Logistic,regression,models,are,neat 














val regexTokenized = regexTokenizer.t 








[hi, i, heard, about, sparkl] 


5 
[i, wish java, could, use, case, classes]|7 
1 


[logistic,regression,models,are,neat] 








ransform (sentenceDataFrame) 





regexTokenized.select ("sentence", "wor 
.WithColumn ("tokens", countTokens (col 








Hi I heard about Spark 
I wish Java could use case classes 














ds") 
("words"))) .show (false) 





[hi, i, heard, about, sparkl] 


[i, wish java, could, use, case, classes]|7 


entenceDataFrame) 
("words"))) .show (false) 
words 














|Logistic,regression,models,are,neat| [logistic, regression, models, are, neat] |5 | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 








4.2.2 ” 移 除 停 用 词 


停 用 词 是 在 文档 中 频繁 出 现 ， 但 未 承载 太 多 意义 的 词语 ， 它 们 不 应 该 被 包含 在 算法 输入 中 ， 所 以 会 用 到 移 除 停 用 词 (StopWordsRemover) 。stopWordsRemover 的 输入 为 一 系列 字符 串 (如 分 词 器 
输出 ) ， 输 出 中 删除 了 所 有 停 用 词 。 停 用 词 表 由 stopWords 参 数 提供 。 一 些 语言 的 默认 停 用 词 表 可 以 通过 StopWordsRemover.loadDefaultStopWords (language) 调用 。 布 尔 参 数 caseSensitive 指 明 是 


否 区 分 大 小 写 (默认 为 否 ) 。 下 面 是 一 些 具体 示例 。 


假设 我 们 有 如 下 DataFrame， 有 id 和 raw 两 列 : 





id | Faw 
i [== 二 == 
0 | [I, saw, the, red, baloon] 
1 | [Mary, had, a, little, lambl] 


通过 对 raw 列 调用 StopWordsRemover， 我 们 可 以 得 到 筛选 出 的 结果 列 : 














id | raw | filtered 
Pp [==== | 
0 | [I, saw, the, red, baloon] | [saw, red, baloon] 
1 | [Mary, had, a, little, lamb]| [Mary, little, lamb|] 
其 中 ， “| “the” “had” 以 及 “a” 被 移 除 。 


实现 以 上 功能 的 详细 代码 如 下 : 





import org.apache.spark.ml.feature.StopWordsRemover 


val remover = new StopWordsRemover () 
.SetInputCol ("raw") 
.SetOutputCol ("filtered") 




















val dataSet = spark.createDataFrame (Seq( 
(0, Seq("I", "saw", "the", "red", "balloon")), 
(1, Seq ("Mary", "had"™, Va "little", "amb") ) 
) ) .toDF ("id", "raw") 
remover.transform(dataSet) .Show (false) 














4.2.3 n-gram 


一 个 n-gram 是 一 个 长 度 为 整数 n 的 字 序列 。NGram 可 以 用 来 将 输入 转换 为 n-gram。 
NGram 的 输入 为 一 系列 字符 串 (如 Tokenizer 的 输出 ) 。 参 数 n 决 定 每 个 n-gram 包含 的 对 象 个 数 。 结 果 包 含 一 系列 n-gram， 其 中 每 个 n-gram 代表 一 个 空格 分 割 的 n 个 连续 字符 。 如 果 输 入 少 于 n 个 字符 


将 没有 输出 结果 。 


加 











import org.apache.spark.ml.feature.NGram 





val wordDataFrame = spark.createDataFrame (Seq( 
(0, Array ("Hi", “I", "heard", "about", "Spark")), 
(1, Array("I", "wish", "Java", "could", "use", "case", "classes")), 
(2, Array ("Logistic", "regression", "models", "are", "neat")) 

) ) .toDF ("id", "words") 




















val ngram = new NGram() .SetN (2) .setInputCol ("words") .setOutputCol ("ngrams") 








val ngramDataFrame = ngram.transform (wordDataFrame) 
ngramDataFrame.select ("ngrams") .Show (false) 








heard, heard about, about Spark] 
[I wish, wish Java, Java could, could use, use case, case classes] 
[Logistic regression, regression models, models are, are neat] 
































4.2.4 二 值 化 


二 值 化 ， 即 通过 设置 阐 值 ， 将 连续 型 的 特征 转化 为 两 个 值 。 大 于 立 值 为 1， 否 则 为 0。 注 : 以 下 规范 化 操作 一 般 是 针对 一 个 特征 向 量 (dataFrame 中 的 一 个 colum) 来 操作 的 。 














import org.apache.spark.ml.feature.Binarizer 


val data = Array((0, 0.1), (1, 0.8), (2, 0.2)) 
val dataFrame = spark.createDataFrame (data) .toDF ("id", "feature") 























val binarizer: Binarizer = new Binarizer () 
.SetInputCol ("feature") 
.SetOutputCol ("binarized feature") 
.SetThreshold (0.5) 


















































val binarizedDataFrame = binarizer.transform (dataFrame) 





printlin(s"Binarizer output with Threshold = ${binarizer.getThreshold}") 
binarizedDataFrame. show () 


id|feature|binarized feature 























0 时 0.0 
1 0.8 1 ,0 
2 0Q.2 0.0 

















4.2.5 主 成 分 分 析 


主 成 分 分 析 (PCA) 是 一 种 统计 学 方法 ， 其 本 质 是 在 线性 空间 中 进行 一 个 基 变 换 ， 使 得 变换 后 的 数据 投影 在 一 组 新 的 “坐标 轴 ” 上 的 方差 最 大 化 ， 然 后 ， 依 据 变换 后 方差 大 小 确定 “坐标 轴 ” 的 权重 或 
重要 性 ， 权 重 高 的 被 称 为 主 成 分 (Principal Component) ， 用 变换 后 的 一 个 较 低 维度 的 子 空间 代表 原 有 数据 的 特征 。 主 成 分 分 析 被 广泛 应 用 在 各 种 统计 学 、 机 器 学 习 问 题 中 ， 是 最 常见 的 降 维 方法 之 一 。 


PCA 在 Spark2.0 用 法 比较 简单 ， 只 需要 设置 : 








.SetInputCol (™ 





features") // 保 证 输入 是 特征 值 向量 


























.SetOutputCol ("pcaFeatures") // 输 出 
.SetK(3) // 主 成 分 个 数 





Os PCA 前 一 定 要 对 特征 向 量 进行 规范 化 (标准 化 ) ! ! ! 


jmpor 
jmpor 
jmpor 
jmpor 
jmpor 








jmpor 








feature .PCA 





org.apache.spark.ml. 
org.apache.spark.ml. 








feature.PCAModel // 不 是 ml1ib 





org.apache.spark.ml. 











feature.StandardScaler 





org.apache.spark.sqgl. 
org.apache.spark.sql. 
org.apache.spark.sq] 








Dataset 
ROW 


.SparkSession 





val rawDataFrame=spark.read. 





val scaledDa 




















.SetInputCol ("features") 


.Se 
.Se 
.Se 
































. Lrans] 


//PCA 


模型 








format ("libsvm") .load ("file:///home/hadoop/bigdata/spark/data/mllib/sample lipbsvm data.txt") 


taFrame=new StandardScaler () 


tOutputCol ("scaledFeatures") 
twithMean (false) 
twWithStqd (true) 
.fit (rawDataFrame) 
form (rawDataFrame) 





// 对 于 稀 玻 数据 (如 本 次 使 用 的 数据 ) ,不 要 使 用 平均 值 





val pcaModel=new PCA() .setInputCol ("scaledFeatures") 
.SetOutputCol ("pcaFeatures") 
.SetK ( 


// 进 行 PCA 降 维 


pcaModel .trans 









































3)// 


.fit (scaledDataFrame) 


form (scaledDataFrame) .select ("label", "pcaFeatures") .show (10,false) 


// 没 有 标准 化 特征 向 量 , 直接 进行 PCA 主 成 分 :各 主 成 分 之 间 值 变化 太 大 ,有 数量 级 的 差别 。 标 准 化 特征 向 











// 量 后 PCA 主 成 分 ,各 主 成 分 之 间 值 基本 上 在 同一 水 平 上 ,结果 更 合理 

















0.0 
// 如 何 








val pcaModel=new PCA () 


.Sel 
. Sel 











di 








var i=1 
for( x<-pcaModel .exp] 





上 
出 

// 运 行 

1 

2 

3 

4 

5 

6 

了 

8 

9 

10 


rintln (i+"\t"+xt+" 





+=1 


























-14.998868464839624, -10.137788261664621, -3.042873539670117] 





[ 
[2.1965800525589754,-4.139257418439533,-11.386135042845101] 
[1 .0254645688925883, -0.8905813756164163,7.168759904518129] 
[1 .5069317554093433, -0.7289177578028571,5.23152743364543] 
[1 .69382530375084654, -0.4350617717494331,4.770263568537382] 
[=-15.870371979062549,=9.999445137658528;=6.5321920373215663|] 
选择 k 值 ? 
































.SetInputCol ("scaledFeatures") 


edDataFrame) 


tOutputCol ("pcaFeatures") 
tK (50)// 
t (scal 


ainedVariance.toArray) { 








a 





结果 (前 10 行 ) , 随 着 k 的 增加 ,精度 趋 于 平稳 


OO 


.2509347992755330857 
12355355301486977 
.07447670060988294 
.0554545717486928 

.04207050513264405 
.03715986573644129 
.031350566055 


23544 











.027797304129489515 
.023825873477 8 





967 








4.2.6 ”多 项 式 展开 


.02268054946233242 








多 项 式 展开 (Polynomial Expansion) 即 通过 产生 n 维 组 合 将 原始 特征 扩展 到 多 项 式 空间 。 下 面 的 示例 会 介绍 如 何 将 你 的 特征 集 拓 展 到 3 维 多 项 式 空 间 。 


import 
import 


val data y 
Vectors .dense (2 . 
Vectors .qense ( 
Vectors .qense ( 


) 


val df 








org.apache. 
org.apache. 


= spark.crea 





.feature.PolynomialExpansion 











.linalg.Vectors 





Arra 


( 
2 
0 . 





teDataFrame (data.map (Tuplel .apply) ) .toDF ("features") 





val polyExpansion = new PolynomialExpansion () 




















.SetInputCol ("features") 





.SetOU 





.SetDegree (3) 

















tputCol ("polyFeatures") 

















lse) 








4.2.7 ”离散 余弦 变换 


polyExpansion.transform (df) 
a 





离散 余弦 变换 (DCT) 是 与 传 里 叶 变 换 相关 的 一 种 变换 ， 它 类 似 于 离散 傅立叶 变换 ， 但 是 只 使 用 实数 。 离 散 余 弦 变 换 相 当 于 一 个 长 度 大 概 是 它 两 倍 的 离散 传 里 叶 变换 ， 这 个 离散 传 里 叶 变换 是 对 一 个 实 


偶 函 数 进 行 的 〈 因 为 


import org.apache.spark.ml. 








Fa 


个 实 偶 函 数 的 传 里 叶 变换 仍然 是 一 个 实 偶 函 数 ) 。 离 散 余弦 变换 ， 经 常用 于 信号 处 理 和 图 像 处 理 中 ， 对 信号 和 图 像 (包括 静止 图 像 和 运动 图 像 ) 进行 有 损 数据 压缩 。 


feature .DCT 


import org.apache.spark.mL.1inalg.VectorSs 


val data = Sedf ( 
Vectors.dense(0.0, 1.0, -2.0, 3.0), 
Vectors.dense(-1.0, 2.0, 4.0, -7.0), 
Vectors.dense(14.0, -2.0, -5.0, 1.0)) 








val df = spark.createDataFrame (data.map (Tuplel .apply)) .toDF ("features") 








val dct = new DCT () 
.SetInputCol ("features") 
.SetOutputCol ("featuresDCT") 
.SetInverse (false) 









































val dctDf = dct.transform (df) 
dctDf.select ("featuresDCT") .Show (false) 


























[1 .0,-1.1480502970952693,2.0000000000000004, -2.7716385975338604] 
[-1.0,3.378492794482933,-7.000000000000001,2.9301512653149677] 
[4.0,9.304453421915744,11.000000000000002,1.55793020363537163] 




















4.2.8 字符 串 一 索引 变换 





字符 串 一 一 索引 变换 (Stringlndexer) 是 将 字符 串 列 编码 为 标签 索引 列 。 索 引 位 于 [0，numLabels) ， 按 标签 频率 排序 ， 因 此 最 常见 的 标签 获取 索引 0。 如 果 输 入 列 是 数值 型 ， 我 们 将 其 转换 为 字符 串 


并 索引 字符 串 值 。 当 下 游 流 水 线 组 件 (如 Estimator 或 Transformer) 使 用 此 字符 串 索 引 标签 时 ， 必 须 将 组 件 的 输入 列 设置 为 此 字符 串 索 引 的 列 名 称 。 通 常 可 以 使 用 setlnputCol 设 置 输入 列 。 


值 ) 


示例 数据 为 一 个 含有 id 和 category 两 列 的 DataFrame， 如 下 : 


id Category 
0 a 
1 b 
2 G 
3 a 
4 a 
5 @ 





category 是 有 3 种 取 值 的 字符 串 列 (a、b、c) ， 使 用 Stringlndexer 进 行 转换 后 我 们 可 以 得 到 如 下 输出 ， 其 中 category 作 为 输入 列 ，categorylndex 作 为 输出 列 : 





id category | categoryIndex 
0 a 0.0 
1 b 2.0 
2 ee 1.aQ 
3 a 0.0 
4 a 0:0 
5 (el 1.0 











a 获 得 索引 0， 因 为 它 是 最 频繁 的 ， 随 后 是 具有 索引 1 的 c 和 具有 索引 2 的 b。 此 外 ， 有 两 个 策略 ， 如 果 在 转换 新 数据 (如 测试 数据 集 ) 时 出 现 了 在 训练 中 未 出 现 的 标签 ，Stringlndexer 将 会 报错 (默认 
或 者 跳 过 未 出 现 的 标签 实例 ( 即 setHandlelnvalid ("skip") ) 。 


例如 ， 测 试 数据 集中 比 训练 数据 集 多 了 一 个 d 类 : 


Category 


如 果 你 没有 设置 StringIndexer 如 何 处 理 未 看见 的 标签 (默认 值 ) 或 没有 将 其 设置 为 “错误 ”， 则 会 抛 出 异常 。 但 是 ， 如 果 你 调用 了 setHandlelnvalid ("skip") ，d 类 将 不 出 现 ， 结 果 为 以 下 数据 集 : 





id | category | categoryIndex 
i i i i | P| -让 二 全 in E 二 三 汪 
0 | a | 0.0 
eo, | 2.0 
2 | Li0 


以 下 是 使 用 Stringlndexer 的 一 个 示例 : 











import org.apache.spark.ml.feature.StringIndexer 





val df = spark.createDataFrame ( 
Seq((0, "a™), (1l, "Wb"), (2, "Cc"), (3, a), (4, "a"), (5, "c")) 
) .toDF ("id", "category") 





val indexer = new StringIndexer () 
.SetInputCol ("category") 
.SetOutputCol ("categoryIndex") 























val indexed = indexer.fit (df) .transform (df) 








idlcategory|categoryIndex 


























0 a 0.0 
1 b 2.0 
2 C 10 
3 a 0.0 
4 a 0.0 
5 0 





4.2.9 ”索引 一 一 字符 忠 变 换 


与 stringlndexer 对 应 ， 索 引 一 一 字符 串 变 换 (IndexTostring) 是 将 指标 标签 映射 回 原始 字符 串 标 签 。 一 个 常见 的 用 例 是 使 用 Stringlndexer 从 标签 生成 索引 ， 使 用 这 些 索 引 训 | 练 模型 ， 并 从 


IndexTostring 的 预测 索引 列 中 检索 原始 标签 。 但 是 ， 你 可 以 自由 提供 你 自己 的 标签 。 


下 面 是 一 个 基于 Stringlndexer 的 示例 ， 假 设 我 们 有 以 下 DataFrame， 其 中 包含 的 列 为 jd 和 categorylndex: 





id CategoryInaeX 
0 0.0 
1 2..0 
2 J 
3 0.0 
4 0.0 
5 1.0 








应 用 IndexTostring， 将 categorylndex 作 为 输入 列 ， 将 originalCategory 作 为 输出 列 ， 我 们 可 以 检索 我 们 的 原始 标签 (它们 将 从 列 的 元 数据 中 推断 ) 





id categoryInaex | originalCategory 
0 050 a 
1 2.0 b 
2 LQ (el 
3 0.0 a 
4 Da0 a 
号 lad & 











下 面 是 一 个 完整 实例 : 


























import org.apache.spark.ml .attribute.Attribute 
import org.apache.spark.ml.feature. {IndexToString, StringIndexer} 
val df = spark.createDataFframe (Seqg( 
(“ay 
(1; sb 
(07 on) 
(Se Va) 
(4, "a"), 
(5， ey) 
i toDe ("Tid "category™) 





val indexer = new StringIndexer () 
.SetInputCol ("category") 
.SetOutputCol ("categoryIndex") 

.fit (df) 

val indexed = indexer.transform (df) 















































printlin(s"Transformed String column '${indexer.getInputCol}' "+ 
s"to indexed column '${indexer.getOutputCol}'") 
indexed. show () 





val inputColSchema = indexed.schema (indexer.getOutputCol) 
printlin(s"StringIndexer will store labels in output column metadata: "+ 
s"${Attribute.fromStructField (inputColSchema) .toString} \n") 




















val converter = new IndexToString () 
.SetInputCol ("categoryIndex") 
.SetOutputCol ("originalCategory") 























Val converted = converter.transform (indexed) 








printlin(s"Transformed indexed column ‘'${converter.getIinputCol}' back to original string " 十 
s"column '${converter.getOutputCol}' using labels in metadata") 
converted.select ("id", "categoryIndex", "originalCategory") .Show () 


























4.2.10 ” 独 热 编码 


独 热 编码 (OneHotEncoder) 将 标签 指标 映射 为 二 值 向 量 ， 其 中 最 多 一 个 单 值 。 这 种 编码 可 以 使 期 望 连 续 特 征 的 算法 使 用 分 类 特征 ， 如 逻辑 回归 等 。 














import ord.apache .spark.ml .feature. {OneHotEncoder, StringIndexer} 








val df = SparKk.CcreateDataFrame (Seq( 
(Oy may 
(1, ep 
(2， 人 
(3 Yan 
(4, "a"), 
(Sy We) 
) ) .toDF ("id", "category") 





val indexer = new StringIndexer () 
.SetInputCol ("category") 
.SetOutputCol ("categoryIndex") 

.fit (df) 

val indexed = indexer.transform (df) 















































val encoder = new OneHotEncoder () 
.SetInputCol ("categoryIndex") 
.SetOutputCol ("categoryVec") 
.SetDropLast (false) 


























Val encoded = encoder.transform (indexed) 
encoded. show () 





【说 明 】 


划 | 


1) OneHotEncoder 缺 省 状态 下 将 删除 最 后 一 个 分 类 或 把 最 后 一 个 分 类 作为 0。 下 面 是 一 个 具体 示例 : 

















import org.apache.spark.ml.feature. {OneHotEncoder, StringIndexer} 





(1 D> "a"), (10. Ois no")y (B22 Ty (308.7697)). toDF ("x T 1 eg 


val fd = spark.createDataFrame( Seq((1.0, ) 7 
setOutputCol ("c idx") 


val ss =new StringIndexer() .SetInputCol ("c" 


val = ss.fit (fd) .transform (fd) 
Ff .Show () 





a 
). 





















































结果 如 下 : 


























0 


后 一 个 分 类 为 b， 通 过 OneHotEncoder 变 为 向 量 后 ， 已 被 删除 。 








val oe = new OneHotEncoder () .setIinputCol("c idx") .setOutputCol ("C_ idx vec") 
val fe = oe.transform(ff) 
























































fe. show () 
显示 结果 如 下 : 
x clc idx C idx vec 
a a 0.0| (2, [0], [1.0]) 
‘5 a 0.0| (2, [0], [1.0]) 
10.0 b 2.0 (2 [1 [1) 
3 和 2 C UL 
3.8 & sO lz Ll La 




















与 其 他 特征 组 合 为 特征 向 量 后 ， 将 置 为 0%， 请 看 如 下 示例 : 














val assembler = new VectorAssembler() .setInputCols (Array ("x", "c idx", "c idx vec")).setOutputCol ("features") 
val vecDF: DataFrame = assembler.transform(fe) 
vecDFr'. show (false) 









































显示 结果 如 下 : 

x c |c idqxlc idx vec eatures 

一 一 一 一 十 一 一 一 十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
1.0 la 10.0 (2, [0], [1.0]) a0r0s0rL0r0:0) 
1.5 la 10.0 (2, [0], [1.0]) ,55705207 05D50] 
10.0lb 12.0 (2, []，[]) 450725070507050] 
0 (2, [1], [1.0] S27 L000 Ld] 
3.8 |e 0 (27 L117 [1:0] 3.8715070s071s0j] 









































如 果 想 不 删除 最 后 一 个 分 类 ， 可 添加 setDropLast (False) : 








oe.setDropLast (false) 
val fl = oe.transform (ff) 


















































fl1.show() 
显示 结果 如 下 : 
又 clc idx CcC idx vec 
0 a 0.0| (3, [0], [1.0]) 
;9 a 0.0| (3, [0], [1.0]) 
10.0 b 2.0| (3, [2],{1.0]) 
342 C 1..0| (3 [1 LL.0]) 
3 [@: .0| (3, [1],[1.0]) 




















与 其 他 特征 向 量 结合 后 ， 情 况 如 下 : 











val vecDF1l: DataFrame = assembler.transform(f1) 
VEeCDF1] .show (false) 






























































显示 结果 如 下 : 

x c |c idqxlc idx vec eatures 

1.0 la 10.0 (3, 10], [1.0])|(3,10,2],11.0,1.0]) 

工 :5 |a ,10:0 (3, [0]，[1.0])1(5，[0v2]，[1.5,1.0]) 
10.0lb 12.0 (3, [2], [1.0]1)|1[10.0,2.0,0.0,0.0,1.0] 
3.2 | 人 |is0 (37 [1 [4:01) 372 1.0r0807L.07050] 
338. |G Ml (3 [11y[L:01) [38,1070s07 L070..0] 














2) 果 分 类 中 出 现 空 字符 ， 需 要 进行 处 理 ， 如 设置 为 "None"， 人 否则 会 报错 。 


4.2.11 加 量 一 索引 交换 








向 量 一 一 索引 变换 (Vectorlndexer) 能 提高 决策 树 或 随机 森林 等 ML 方法 的 分 类 效果 ， 是 对 数据 集 特征 向 量 中 的 类 别 (离散 值 ) 特征 (index categorical feature) 进行 编号 。 它 能 够 自动 判断 哪些 特 
征 是 离散 值 型 的 特征 ， 并 对 它们 进行 编号 。 具 体 来 说 ， 它 执行 以 下 操作 : 


1) 获取 Vector 类 型 的 输入 列 和 参数 maxCategories。 

2) 基于 不 同 值 的 数量 确定 哪些 特征 应 是 分 类 的 ， 其 中 最 多 maxCategories 的 特征 被 声明 为 分 类 特征 。 
3) 为 每 个 分 类 特征 计算 基于 0 的 类 别 索引 。 

4) 索引 分 类 特征 并 将 原始 特征 值 转换 为 索引 。 

5) 索引 分 类 特征 允许 诸如 决策 树 和 树 集合 等 算法 适当 地 处 理 分 类 特征 ， 从 而 提高 性 能 。 


在 下 面 的 例子 中 ， 我 们 读 取 一 个 标记 点 的 数据 集 ， 然 后 使 用 Vectorlndexer 来 决定 哪些 特征 应 该 被 视 为 分 类 特征 。 我 们 将 分 类 特征 值 转换 为 它们 的 索 3|。 这 个 变换 的 数据 然后 可 以 被 传递 到 诸如 
DecisionTreeRegressor 的 处 理 分 类 特征 的 算法 。 





import org.apache.spark.ml.feature.VectorIindexer 














val data = spark.read.format ("libsvm") .load ("file:///home/hadoop/bigdata/spark/data/mllib/sample libsvm data.txt") 








val indexer = new VectorInadexer () 
.SetInputCol ("features") 
.SetOutputCol ("indexed") 
.SetMaxCategories (10) 




















val indexerModel = indexer.fit (data) 

















val categoricalFeatures: Set[Int] = indexerModel .categoryMaps .keys.toSet 
printlin(s"Chose ${categoricalFeatures.size} categorical features: "+ 
categoricalFeatures.mkString(", ")) 


// 创建 一 个 新 列 , "索引 " 列 ,将 分 类 特征 转换 为 索引 
Val indexedData = indexerModel .transform (aata) 
indexedData. show () 






































































































































































































































PM FE TE ON I EN | PE SN I NE 请 菩 全 汪汪 人 疝 疝 二 

label features indexed | 

i i i i nd ed ee ei lined eed eid en, i i i i dd Se ee este ned ted i fi Man i ih i 十 
0.0| (692, [127,128,129nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| (692, [127,128,129http://www.hzcourse.com/res 
1.0| (692, [158,159,160http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| (692, [158,159,160http://www.hzcourse.com/res 
1.0| (692, [124,125,126nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| (692, [124,125,126http://www.hzcourse.com/res 
1.0| (692, [152,153,154nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| (692, [152,153,154http://www.hzcourse.com/res 
1.0| (692, [151,152,153nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| (692, [151,152,153http://www.hzcourse.com/res 
0.0| (692, [129,130,131nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| (692, [129,130,131http://www.hzcourse.com/res 


4.2.12 ”交互 式 


交互 (Interaction) 是 一 个 变换 器 ， 它 使 用 向 量 或 双 值 列 ， 并 生成 单个 向 量 列 ， 其 中 包含 每 个 输入 列 的 一 个 值 的 所 有 组 合 的 乘积 。 例 如 ， 如 果 你 有 两 个 向 量 类 型 列 ， 每 个 列 有 3 个 维度 作为 输入 列 ， 那 
么 你 将 获得 一 个 9 维 向 量 作为 输出 列 。 


假设 我 们 有 以 下 DataFrame， 包 含 id1、vec1 和 vec2 三 列 : 











1dq1 |vec1l VEeC2 

1 [T0752:053:0] | [L8074.075%01 
2 [40,3.0,8:0] OF OO 
3 E607 L059.04] | [203300575601 
4 [10.0,8.0,6.0] | [9.0,4.0,5.0] 
5 [9.0,2.0,7.0] | [10.0,7.0,3.0] 
6 [LaQ, L040 [2dr8.0d4..0] 














应 用 与 这 些 输入 列 的 交互 ， 然 后 将 interactionedCol 作 为 输出 列 ， 结 果 如 下 : 









































idl|vecl |vec2 |interactedCol 
1 [1.0,2.0,3.0] |1[8.0,4.0,5.0] |[8.0,4.0,5.0,16.0,8.0,10.0,24.0,12.0,15.0] 
2 [4.073.078.0] |[7.0;9.0;8;0] | [836;0;72.07;64.0;42.0;54.0;48.0;112.0,;144.0,;128.0] 
3 [6.0,1.0,9.0] |[2.0,3.0,6.0] |[36.0,54.0,108.0,6.0,9.0,18.0,54.0,81.0,162.0] 
4 [10.0,8.0,6.0] 1 [9.0,4.0,5.0] |[360.0,160.0,200.0,288.0,128.0,160.0,216.0,96.0,120.0] 
5 [90720, 70 | [LL0..0;7.:0330] | [450..0,315:.0,135:.0; 100..0;70.030.0,350:0;245:.0, 105..0] 
6 [1.0,1.0,4.0] |[2.0,8.0,4.0] | [12.0,48.0,24.0;,12.0,;,48.0,24.0,48.0,192.0,;96.0] 











以 下 是 实现 以 上 转换 的 具体 代码 : 






































import org.apache .Spark.ml .feature.Interaction 
import org.apache.spark.ml.feature.VectorAssembler 
val df = spark.createDataFrame (Seq( 

(1, 1, 2, 3, 8, 4, >»), 

(2, 4, 3, 8, 7, 9, 8), 

(3, 6, 1, 9, 2, 3, 6), 

(4, 10, 8, 6, 9, 4, 5), 

(5, 9, 2, 7, 10, 7, 3), 

(6, 1, 1, 4, 2, 8, 4) 


) ) .toDF ("igd1", Wa Re oalip 于 加 3 "vid4™, we ls "igd6", "id7") 
val assemblerl1 = new VectorAssembler () . 
setInputCols (Array ("id2", "id3", "id4")). 
setOutputCol ("vec1") 























val assembledl1 = assemblerl .transform (df) 




















val assembler2 = new VectorAssembler () . 
setInputCols (Array ("id5", "id6", "id7")). 
setOutputCol ("vec2") 











val assembled2 = assembler2.transform(assembled1) .select ("idl", “vecl", "vec2") 




















val interaction = new Interaction ( 
.SetInputCols (Array ("idl", "vecl", "vec2")) 
.SetOutputCol ("interactedCol") 


-一 



































Val interacted = interaction.transform(assembled2) 








interacted.show (truncate = false) 


4.2.13 正则 化 


正则 化 (Normalizer) 是 一 个 变换 器 ， 用 于 转换 向 量 (特征 向 量 ) 的 数据 集 ， 规 范 每 个 向 量 以 具有 单位 范 数 。 它 采用 参数 p 实 现 归 一 化 ， 默 认 情 况 下 p=2。 这 种 归 一 化 可 以 帮助 标准 化 输入 数据 并 改进 
学 习 算 法 的 性 能 。 














Ll i 二 Se 了 > 
最 常用 的 范 数 就 是 p- 范 数 。 若 x=[%,%…,] ， 那 么 


] 


| rH a 已 17 
了 = thel + 
万 大 


当 p 取 1、2、% 的 时 候 分 别 是 以 下 几 种 最 简单 的 情形 : 
1- 范 数 : Dx|1= |x | + | x | ++ | x | 
. 2- 范 数 : x||2= ( |x| 2+ | x |2+…+ | x |2) 1/2 


co- 范 数 : xse=max ( | xi | 》 | x | ) “ | x | ) 


其 中 2- 范 数 就 是 通常 意义 下 的 距离 。 


以 下 示例 演示 如 何 加 载 libsvm 格 式 的 数据 集 ， 然 后 将 每 行 标准 化 为 单位 L1 范 数 和 单位 Loo 范 数 。 





jmpor 
jmpor 


org.apache.spark.ml.feature.Normalizer 
org.apache.spark.ml.linalg.Vectors 




















val dataFrame = spark.createDataFrame (Seq( 
(0, Vectors.dense(1.0, 0.5, -1.0)), 
(1, Vectors.dense(2.0, 1.0, 1.0)), 
(2, Vectors.dense(4.0, 10.0, 2.0)) 

) ) .toDF ("id", "features") 


// 使 用 L1 正 规 化 向 量 

val normalizer = new Normalizer () 
.SetInputCol ("features") 
.SetOutputCol ("normFeatures") 
.SetP (1.0) 
































val llNormData = normalizer.transform (dataFrame) 
printlin ("Normalized using L^1 norm") 
llNormData. show () 


// ”使 用 L~% 正 规 化 向 量 
val lInfNormData = normalizer.transform(dataFrame, normalizer.p -> Double.PositiveInfinity) 
println("Normalized using L^inf norm") 

lInfNormData. show () 






























































4.2.14 规 学 化 


规范 化 (StandardScaler) 是 转换 向 量 行 的 数据 集 ， 标 准 化 每 个 特征 使 得 其 有 统一 的 标准 差 或 者 均值 为 零 ， 方 差 为 1。Spark 中 可 以 选择 是 带 或 者 不 带 均值 和 方差 ， 参 数 如 下 : 
withStd: 默认 值 为 真 ， 使 用 统一 标准 差 方 式 。 
:withMean: 默认 为 假 。 此 种 方法 将 产 出 一 个 稠密 输出 ， 所 以 应 用 于 稀疏 输入 时 要 小 心 。 


StandardScaler 是 一 个 Estimator， 它 可 以 使 数据 集 产生 一 个 StandardScalerModel， 用 来 计算 汇总 统计 。 然 后 ， 产 生 的 模 可 以 用 来 转换 向 量 至 统一 的 标准 差 或 者 零 均值 特征 。 注 意 ， 如 果 特 征 的 标准 
差 为 零 ， 则 该 特征 在 向 量 中 返回 的 默认 值 为 0.0。 


以 下 示例 演示 如 何以 libsvm 格 式 加 载 数据 集 ， 然 后 规范 化 每 个 特征 的 单位 标准 偏差 。 


import org.apache.spark.ml.feature.StandardScaler 





val dataFrame = spark.read.format ("libsvm") .load ("file:///u01l/bigdata/spark/data/mllib/sample libsvm data.txt") 











val scaler = new StandardScaler () 
.SetInputCol ("features") 
.SetOutputCol ("scaledFeatures") 
.SetWithStad (true) 
.SetWithMean (false) 



































// 通过 拟 合 StandardsScaler 来 计算 汇总 统计 
val scalerModel = scaler.fit (dataFrame) 


// 规范 每 个 特征 使 其 有 单位 标准 偏差 
val scaledData = scalerModel .transform (dataFrame) 
scaledData. show () 



















































































4.2.15 ”最 大 值 一 一 最 小 值 缩放 





最 大 值 一 一 最 小 值 缩放 (MinMaxScaler) 通过 重新 调节 大 小 将 Vector 形式 的 行 转换 到 指定 的 范围 内 ， 通 常 为 [0，1]， 它 的 参数 有 : 
. min: 默认 为 0.0， 为 转换 后 所 有 特征 的 下 边界 。 
. max: 默认 为 1.0， 为 转换 后 所 有 特征 的 上 边界 。 


MinMaxScaler 计 算数 据 集 的 汇总 统计 量 ， 并 产生 一 个 MinMaxScalerModel。 该 模型 可 以 将 独立 的 特征 的 值 转换 到 指定 的 范围 内 。 对 于 特征 E 来 说 ,调整 后 的 特征 值 如 下 : 





Rescaled(e)=————*(max—min)+min 
“EE -EE. 
1ndX II 
如 果 Emax==Emin， 则 Rescaled=0.5* (max-min) 。 
注意 ， 因 为 零 值 转换 后 可 能 变 为 非 零 值 ， 所 以 即便 为 稀 琉 输入 ， 输 出 也 可 能 为 稠密 向 量 。 
下 面 的 示例 展示 了 如 何 读 入 一 个 libsvm 形 式 的 数据 以 及 调整 其 特征 值 到 [0，1] 之 间 。 


org.apache.spark.ml.feature.MinMaxScaler 
org.apache.spark.ml.linalg.Vectors 


jmpor 
jmpor 














et 二 





val dataFrame = spark.createDataFrame (Sed ( 
(0, Vectors.dense(1.0, 0.1, -1.0)), 
(1, Vectors.dense(2.0, 1.1, 1.0)), 
(2, Vectors.dense(3.0, 10.1, 3.0)) 

) ) .toDF ("id", "features") 

















val scaler = new MinMaxScaler () 





. Set] 











nputCol ("features") 


.SetOutputCol ("scaledFeatures") 


// 计算 汇总 统计 并 生成 MinMaxScalerModel 
val scalerModel = scaler.fit (dataFrame) 


























// 将 每 个 特征 重新 缩放 至 [min,max] 范 


val scaledData = scalerModel .trans 








printlin(s"Features scaled to range: 
scaledData.select ("features", "scal 








显示 结果 如 下 : 


























form (dataFrame) 
[${scaler.getMin}, ${scaler.getMax}]") 
ledFeatures") .Show () 





4.2.16 


最 大 值 一 一 绝对 值 缩放 (MaxAbsscaler) 转换 Vector 行 的 数据 集 ， 通 过 划分 每 个 
MaxAbsScaler 计 算数 据 集 上 的 汇总 统计 信息 ， 并 生成 MaxAbsScalerModel。 然 后 ， 模 型 可 以 将 每 个 特征 单独 缩放 到 [-1，1] 之 间 。 


最 大 值 一 一 绝对 值 缩放 


以 下 示例 演示 如 何 加 载 libsvm 格 式 的 数据 集 ， 然 后 将 每 个 特征 重新 缩放 到 [-1，1]。 


import 





jmpor 








org.apache.spark.ml .feature.MaxAbsScaler 





org.apache. spark.ml 








.linalg.Vectors 


val dataFrame = spark.createDataFrame (Sed ( 
(0, Vectors.dense(1.0, 0.1, -8.0)), 
(1, Vectors.dense(2.0, 1.0, -4.0)), 
(2, Vectors.dense(4.0, 10.0, 8.0)) 

) ) .toDF ("id", "features") 














val scaler = new MaxAbsScaler () 





.SeLt 











InputCol ("features") 


.SetOutputCol ("scaledFeatures") 





// 计算 汇总 统计 并 生成 MaxAbsScalerModel 














val scalerModel = scaler.fit (dataFrame) 


// 将 每 个 特征 缩放 到 [-1, 1] 


edData = scalerModel .trans 





val scal 




















scaledData.select ("features", "scal 























运行 结果 如 下 : 
features scaledFeatures 
1.050sLy=8%.0] | [0.2570..0L75=150] 
2505.La0>=430] [Oro50 aL;,=0.85l 
450) 10507820] [1.0,1.0,1.0] 











4.2.17 ”离散 化 重组 


离散 化 重组 (Bucketizer) 是 将 一 列 连 续 特征 转换 为 


* split: 用 于 将 连续 特征 映射 到 bucket。 对 于 n+1 分 割 ， 有 nn 个 桶 。 由 分 割 x，y 定 义 的 桶 保存 除了 最 后 一 个 桶 之 外 的 范围 区 ,，y) 中 的 值 ， 其 还 包括 y。 





form (dataFrame) 
ledFeatures") .Show () 





列 特征 桶 ， 其 中 的 桶 由 用 户 # 


已 一 Lr Nl 


上 目下。 七 少 


及 的 参数 如 下 : 


AN 
分 


特征 的 最 大 绝对 值 ， 将 每 个 特征 重新 缩放 到 [-1，1] 中 。 它 不 会 移动 /居中 数据 ， 因 此 不 会 破坏 任何 稀疏 性 。 


割 应 严格 增加 。 必 须 明确 提供 (-inf，inf) 的 值 以 涵 


盖 所 有 Double 值 ; 否则， 指定 拆 分 之 外 的 值 将 被 视 为 错误 。 分 割 的 两 个 示例 是 Array (Double.NegativeInfinity，0.0，1.0，Double.PositiveInfinity) 和 Atray (0.0，1.0，2.0) 。 


注意 ， 如 果 你 不 知道 目标 列 的 上 限 和 下 限 ， 你 应 该 添加 Double.Negativelnfinity 和 Double.Positivelnfinity 作 为 分 割 的 边界 ， 以 防止 潜在 的 Bucketizer 边 界 异 常 。 还 要 注意 ， 你 提供 的 分 割 必须 严格 按 
升序 ， 即 S0<s1<s2<.…<Ssn。 更 多 详细 信息 ， 请 参阅 Bucketizer 的 API 文 档 。 


以 下 示例 演示 如 何 将 双 列 存储 到 另 一 个 索引 列 的 列 中 。 











import ord.apache .SparKk.ml .feature.Bucke 


val splits = Array (Double.Nega 


val da 
val da 





tizer 














tiveInfini 





ta = Aeray(t-999.9,. -V5 -U3y QDy 











Ly, 





taFrame = spark.createDataFrame (da 








val bucketizer = new Bucketizer () 














.SetInputCol ("features") 
.SetOutputCol ("bucketedFeatures") 
.SetSplits (splits) 








// 将 原来 的 数值 转换 为 箱 式 索引 


val bucketedData = bucketizer. 








Lrans 














-0.5, 0.0, 0.5, Double.Posi 











Qs2y 99959) 











ta.map (Tuplel .apply) ) .toDF ("fea 


form (dataFrame) 


printlin(s"Bucketizer output with ${bucketizer.getSplits.length-1} buckets") 














bucketedData. show () 


运行 结果 如 下 : 








Ee EE 十 ed i el EE 
features|bucketedFeatures 
el 十 | 加 





tiveInfinity) 














4.2.18 ”元素 乘积 


元 素 乘 积 (ElementwiseProduct) 是 使 用 元 素 级 乘法 将 每 个 输入 向 量 乘 以 提供 的 “权重 ”向 量 。 换 句 话 说 ， 它 通过 标量 乘法 器 来 缩放 数据 集 的 每 一 列 。 这 表示 输入 向 量 v 和 变换 向 量 W 之 间 的 
Hadamard 乘 积 ， 以 产生 结果 向 量 。 


V N 





下 面 的 示例 演示 了 如 何 使 用 变换 向 量 值 来 变换 向 量 : 





org.apache.spark.ml.feature.ElementwiseProduct 
org.apache.spark.ml.linalg.Vectors 


jmpor 
jmpor 


// 创建 一 些 向 量 数据 , 也 适用 于 稀疏 向 量 
val dataFrame = spark.createDataFrame (Sed ( 

("a", Vectors.dense(1.0, 2.0, 3.0)), 

("b", Vectors.dense(4.0, 5.0, 6.0)))) .toDF ("id", "vector") 






































val transformingVector = Vectors.dense(0.0, 1.0, 2.0) 
val transformer = new ElementwiseProduct () 
.SetScalingVec (transformingVector) 
.SetInputCol ("vector") 
.SetOutputCol ("transformedVector") 


// 创建 新 列 , 可 批量 转换 向 量 


transformer.transform(dataFrame) .Show () 
















































































运行 结果 如 下 : 
| 一 一 一 十 i ed ee i i i sn i i dt 
iq | vector|transformedVector 
上 一 一 一 十 ee | | 
al [二 .072.073.0] [0.072.076.0] 
bl[4.0,5.0,6.0] [O030;5.0;712,.0| 
六 = 二 一直 一 二 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 = 一 十 
4.2.19 SQL 转换 器 
SQL 转换 器 (SQLTransformer) 可 以 实现 由 SQL 语 句 定义 的 变换 。 目 前 我 们 只 支持 SQL 语 法 ,如 “SELECT...FROM THIS _...”， 其中“ _THIS ”表示 输入 数据 集 的 基础 表 。select 子 句 指定 要 在 输 


出 中 显示 的 字段 、 常 量 和 表达 式 ， 并 且 可 以 是 Spark SQL 支持 的 任何 select 子 句 。 用 户 还 可 以 使 用 Spark SQL 内 置 函 数 和 和 UDF 操作 这 些 选 定 的 列 。 例 如 ，SQLTransformer 支 持 以 下 语句 : 
.SELECTaa+bASabFROM _ THIS 
* SELECT a, SQRT(b) AS b_sqtt FROM _THIS__ whetea>5 


-SELECT a, b, SUM(c) AS c_sum FROM _ THIS__ GROUP BY ab 


假设 我 们 有 以 下 DataFrame， 它 包含 jd、v1 和 v2 三 列 : 


id | vi | v2 
i | Pr | Pe 
0 | 1.0 | 3.0 
2. | a0 | 50 


这 是 SQL 转换 器 “SELECT*， (v1+v2) AS v3， (v1*v2) As v4 FROM __THIS _ ”: 语句 的 输出 。 


id | vv2 lv3 | v4 
和 | 二 汪汪 RS | 二 = 全 | 
9 | 0 1 30 | 4.0 | 3.0 
2 | 20 | Sd | 70 |100 


以 下 是 实现 以 上 结果 的 具体 代码 : 











import org.apache.spark.ml.feature.SsQLTransformer 











val df = spark.createDataFrame ( 
Seo((0. La0y 350 DEL "yl ww2") 








val sqlTrans = new SQLTransformer() .SetStatement ( 
"SELECT *, (1 + V2) AS v3, (vl * v2) AS v4 FROM THIS ") 
































sqlTrans.transform (df) .Show () 





4.2.20 ” 问 量 汇编 


向 量 汇编 (VectorAssembler) 是 一 个 变换 器 ， 可 以 将 给 定 的 多 列表 组 合成 一 个 单一 的 向 量 列 。 它 多 用 于 将 由 不 同 特征 变换 器 生成 的 原始 特征 和 特征 组 合成 单个 特征 向 量 ， 以 便 训 练 ML 模型 ， 如 逻辑 回 
归 和 决策 树 。VectorAssembler 接 受 的 输入 列 类 型 为 : 所 有 数字 类 型 ， 布 尔 类 型 和 向 量 类 型 。 人 在 每 一 行 中 ， 输 入 列 的 值 将 按 指定 的 顺序 连接 到 向 量 中 。 


假设 我 们 有 一 个 带 有 id、hour、mobile、userFeatures 和 clicked 五 列 的 DataFrame: 


id | hour | mobile | userFeatures | clicked 





UserFeatures 是 一 个 包含 三 个 用 户 特征 的 向 量 列 。 我 们 希望 将 hour、mobile 和 userFeatures 合 并 成 一 个 称 为 特征 的 单一 特征 向 量 ， 并 使 用 它 来 预测 是 否 被 点 击 。 如 果 我 们 将 VectorAssembler 的 输入 列 
设置 为 hour、mobile 和 userFeatures， 并 将 列 输 出 到 特征 ， 则 在 转换 后 ， 我 们 应 该 得 到 以 下 DataFrame: 


id | hour | mobile | userFeatures | clicked | features 








0 | 18 | 1.0 | ToD 100; Did] .| Li | L180 La0r O07 T1070 O89] 


import org.apache.spark.ml.feature.VectorAssembler 
import org.apache.spark.ml.linalg.Vectors 

















val dataset = spark.createDataFrame ( 
Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0)) 
) .toDF ("id", "hour", "mobile", "userFeatures", "clicked") 








val assembler = new VectorAssembler () 
.SetInputCols (Array ("hour", "mobile", "userFeatures")) 
.SetOutputCol ("features") 











val output = assembler.transform(dataset) 
printlin("Assembled columns 'hour', ‘'mobile', ‘'userFeatures' to Vector column "features '") 
output .select ("features", "clicked") .show (false) 























4.2.21 “分 位 数 离散 化 


分 位 数 离散 化 (QuantileDiscretizer) 是 将 具有 连续 功能 的 列 转换 为 带 有 分 级 分 类 功能 的 列 。 分 级 数量 由 参数 humBuckets 设 置 。 


NaN 值 : 在 QuantileDiscretizer 拟 合 过 程 中 ，NaN 值 将 从 列 中 移 除 。 这 将 产生 一 个 Bucketizer 模 型 进行 预测 。 在 转换 过 程 中 ，Bucketizer 会 在 数据 集中 找到 NaN 值 时 引发 错误 ， 但 用 户 也 可 以 通过 设置 
handlelnvalid 来 选择 保留 或 删除 数据 集中 的 NaN 值 。 如 果 用 户 选 择 保留 NaN 值 ， 那 么 它们 将 被 特别 处 理 并 放 入 自己 的 桶 中 ， 例 如 ， 如 果 使 用 4 个 桶 ， 那 么 非 NaN 数 据 将 被 放 入 桶 [0-3]， 但 是 NaN 将 是 计数 
在 特殊 的 梢 [4 。 


算法 : 该 分 级 范围 使 用 近似 算法 (更 多 内 容 请 自行 查阅 相关 文档 ) 。 可 以 用 参数 来 控制 relativeError 近 似 的 精度 。 当 设置 为 零 时 ， 计 算 精 确 的 分 位 数 (注意 : 计算 精确 分 位 数 是 一 项 昂贵 的 操作 ) 。 分 
级 的 上 下 边界 为 负 无 穷 到 正 无 穷 ， 履 盖 所 有 的 实数 值 。 


假设 我 们 有 如 下 DataFrame， 包 含 id、hour 两 列 : 





id hour 
起 
0 
PE 
9 | 
各 J 





hour 是 Double 类 型 的 连续 特征 。 我 们 希望 将 连续 特征 变 成 一 个 分 级 特征 。 给 定 numBucke-ts=3， 可 得 到 以 下 DataFrame: 








id hour result 
双 - Te 
1 1319.012.0 
Po 
Em 
a12.2 10.0 








实现 以 上 功能 的 Scala 代 码 如 下 : 








import org.apache.spark.ml.feature.QuantileDiscretizer 


val data = Zrray({(0, 18.0), 人 19.0}); (2y 8,.0)y (3r 5,.0); (4; 2.2)) 
val df = spark.createDataFrame (data) .toDF ("id", "hour") 








val discretizer = new QuantileDiscretizer () 
.SetInputCol ("hour") 
.SetOutputCol ("result") 
.SetNumBuckets (3) 



































val result = discretizer.fit(df) .transform (df) 
result. show () 








4.3 ”特征 选择 
特征 选择 (Feature Selection) 是 从 特征 向 量 中 选择 那些 更 有 效 的 特征 ， 组 成 新 的 、 更 简单 有 效 的 特征 向 量 的 过 程 。 它 经 常用 于 数据 分 析 中 ， 尤 其 用 在 高 维 数据 分 析 中 ， 可 以 剔除 元 余 或 影响 不 大 的 特 


征 ， 提 升 模型 的 性 能 。 


4.3.1 辣 量 机 


向 量 机 (VectorSlicer) 是 一 个 处 理 特 征 向 量 的 变换 器 ， 会 输出 一 个 新 的 原始 特征 子 集 的 特征 向 量 。 从 向 量 列 中 提取 特征 很 有 用 。Vectorslicer 接 受 具有 指定 索引 的 向 量 列 ， 然 后 输出 一 个 新 的 向 量 列 ， 
其 值 通过 这 些 索引 进行 选择 。 有 两 种 类 型 的 索引 : 





“ 代表 向 量 中 的 索引 的 整数 索引 ，setIndices () 。 
. 表示 向 量 中 特征 名 称 的 字符 串 索 引 ，setNames () 。 


注意 ， 向 量 列 需要 具有 AttributeGroup ， 因 为 要 实现 在 Attribute 的 name 字 段 匹配 。 整 数 和 字符 串 的 规格 都 可 以 接受 。 此 外 ， 你 可 以 同时 使 用 整数 索引 和 字符 串 名 称 。 但 必须 至 少 选 择 一 个 特征 ， 重 复 
的 功能 是 不 允许 的 ， 所 以 选择 的 索引 和 名 称 之 间 不 能 有 重 老 。 


此 外 ， 如 果 选 择 了 功能 的 名 称 ， 遇 到 空 的 输入 属性 时 会 抛 出 异常 。 
输出 向 量 将 首先 (按照 给 定 的 顺序 ) 对 所 选 索 引 的 特征 进行 排序 ， 其 次 是 所 选择 的 名 称 (按照 给 定 的 顺序 ) 。 


假设 我 们 有 一 个 DataFrame 与 列 userFeatures: 


userFeatures 


[RD sl] 


UserFeatures 是 一 个 包含 三 个 用 户 特征 的 向 量 列 。 假 设 userFeatures 的 第 一 列 全 部 为 零 ， 因 此 我 们 要 删除 它 并 仅 选 择 最 后 两 列 。Vectorslicer 使 用 setlndices (1，2) 选择 最 后 两 个 元 素 ， 然 后 生成 一 个 
名 为 features 的 新 向 量 列 : 


userFeatures | features 





[O00; 10:0» 0.3] | 7 0:3] 


假设 userFeatures 有 输入 属性 ， 如 [“f1”，“f2”，“f3”]， 那 么 我 们 可 以 使 用 setNames (“f2”，“f3”) 来 选择 它们 。 











userFeatures | features 
| 证 
[020 六 00507025 "| 00 0:5] 
[有 fF1 2 ow E20 > 1 E30 | [ E277 wr ES] 























以 下 是 实现 向 量 选择 的 一 个 Scala 代 码 示例 : 


jmpor 
jmpor 


org.apache.spark.sql .Row 
org.apache.spark.sqgl.types.StructType 











val data = Arrays.asList( 
Row (Vectors.sparse(3, Seq((0, -2.0), (1, 2.3)))), 
Row (Vectors.dense(-2.0, 2.3, 0.0)) 














val defaultAttr = NumericAttribute.defaultAttr 
val attrs = Array ("fl", "“f2", "“f3") .map (defaultAttr.withName) 
val attrGroup = new AttributeGroup ("userFeatures", attrs.asInstanceOf [Array[Attributel]]) 


















































val dataset = spark.createDataFrame (data, StructType (Array (attrGroup.toSstructField()))) 




















val slicer = new VectorSlicer () .SetInputCol ("userFeatures") .setOutputCol ("features") 











slicer.setIndices (Array (1)) .SetNames (Array ("£3")) 
// 也 可 以 用 slicer.setIndices (Array (1，2) ) 或 者 slicer.setNames (Array("f2"，"f3") ) 





























val output = slicer.transform (dataset) 
output. show (false) 

















运行 结果 

userFeatures eatures 

(3r [O01 [=2..072031) | (27L0]7 L231) 
[=2.0;,2.3,0.0] 2.3,0.0|] 











4.3.2 RA 


R 公 式 (RFormula) 可 以 通过 R 模 型 公式 来 将 数据 中 的 字段 转换 为 特征 值 。 目 前 ，ML 支 持 R 运 算 符 的 有 限 子 集 ，“~”“.”“: ”“+” 和 “-”。 基 本 操作 有 : 


“~” 用 于 分 隔 目 标 和 对 象 。 


[1 » 


+”， 连 接 词 ，“+0” 表 示 删 除 空格 。 


 » 


， 删 除 术语 ，“-1” 表 示 删 除 空格 。 
“: ”用 于 交互 (数字 来 法 或 类 别 二 元 化 ) 。 
“.” 用 于 除 目 标 外 的 所 有 列 。 
假设 a 和 b 为 double 数 据 类 型 的 两 列 : 
1) y~a+b 表 示 模 型 y~w0+w1*a+w2*b， 其 中 w0 为 截 距 ，w1 和 w2 为 相关 系数 。 


2) y~a+b+a: b-1 表 示 模 型 y~w1*a+w2*b+w3*a*b， 其 中 w1、w2、w3 是 相关 系数 。 


RFormula 产 生 一 个 特征 向 量 和 一 个 double 或 者 字符 串 标签 列 (label) 。 像 R 在 线性 回归 中 使 用 公式 时 ， 字 符 串 输入 列 将 被 单 编 码 ， 数 字 列 将 被 转换 为 双 精 度 。 如 果 类 别 列 是 字符 串 类 型 ， 它 将 通过 
stringlndexer 转 换 为 double 类 型 索引 。 如 果 标 签 列 不 他 在 ， 则 输出 中 将 通过 规定 的 响应 变量 创造 一 个 标签 列 。 


假设 我 们 有 一 个 含有 id、country、hour 和 clicked 四 列 的 DataFrame: 


id | country |hour | clicked 
| | 二 === 半 | 二 二 二 二 二 一 全 
7 | “US™ | 18 | 1.0 
8 | "CA" | 12 | 0.0 
9 | NZ" | 15 | 0.0 





如 果 我 们 使 用 RFormula 公 式 clicked ~ country+hour， 则 表明 我 们 希望 基于 country 和 hour 预 测 clicked， 通 过 转换 我 们 可 以 得 到 如 下 DataFrame: 











id | country |hour | clicked | features | label 
| | | | 
A 帮 S7 | 18 | “la | 920 90 LT8.0] | lL.0 
8 | GAY | 12 | 0.0 | [0.0, 1.0, 12.0] | 0.0 
9 | "NZ" | 15 | 0.0 | L000, 15::0] 小 站 < 





以 下 是 实现 上 述 功能 的 Scala 代 码 : 





import org.apache.spark.ml.feature.RFormula 





val dataset = spark.createDataFrame (Seq( 


(7, 
(8, 
(9, 


"US", 二 1.0); 
OA 2 UD)s 
NE 15, 0.0) 





) toBE ("id"; 


"country “Ga 


mw 
r 


"clicked") 





val formula = new RFormula () 
.SetFormula("clicked ~ country + hour") 
.SetFeaturesCol ("features") 
.SetLabelCol ("label") 






































fit (dataset) .transform (dataset) 
"Jabel") .Show () 


val ou 
output 


tput formula. 
.Select ("features", 














4.3.3 


卡 方 特征 选择 (ChiSqSelector) 代表 卡 方 特征 选择 。 它 适用 于 带 有 类 别 特征 的 标签 数据 。ChiSqSelector 根 据 分 类 的 卡 方 独立 性 检验 来 对 特征 排序 ， 选 取 类 别 标签 主 要 依赖 的 特征 。 它 类 似 于 选取 最 有 


预测 能 力 的 特征 。ML 目 前 支持 三 种 选择 方法 : numTopFeatures、percentile 和 fpr。 
. numTopFeatures: 根据 卡 方 测试 选择 固定 数量 的 排名 靠 前 的 几 个 特征 。 这 类 似 于 产生 具有 最 大 预测 能 力 的 特征 。 
percentile: 类 似 于 numTopFeatutes 但 选择 所 有 特征 的 一 部 分 ， 而 不 是 固定 数量 。 
* fpr: 选择 p 值 低 于 阔 值 的 所 有 特征 ， 从 而 控制 选择 的 假 阳 性 率 。 
默认 情况 下 ， 使 用 numTopFeatures 将 默认 的 排名 数量 设置 为 590。 用 户 可 以 使 用 setSele-ctorType 选 择 方法 。 


假设 我 们 有 一 个 含有 id，features 和 clicked 三 列 的 DataFrame， 其 中 clicked 为 需要 预测 的 目标 : 


id | features | clicked 
二 三 一 | i dd i i a i en A i | i 
了 | [L005 ‘0.0; L180; TL0] | 1.0 
8 | [0.0, 1.0, 12.0, 0.0] | 0.0 
9 | [LO O07 15.0) Oall 00 








如 果 我 们 使 用 ChiSqSelector 并 设置 humTopFeatures 为 1， 根 据 标签 clicked，features 中 最 后 一 列 将 会 是 最 有 用 的 特征 : 





id | features | clicked | selectedqFeatures 
| | = [= 
了 1 [O00 O07 L800 二 50] .1:0 | [1.0] 
8 | [0.0, 1.0, 12.0, 0.0] | 0.0 | [0.0] 
9. 1 [E05 0.0 T5350 0 | 0:0 | [0.1] 








下 面 是 使 用 ChiSqSelector 的 Scala 代 码 示 例 : 





org.apache. spark.ml 
org.apache .spark.ml] 


.feature.ChiSgqSelector 
.linalg.Vectors 














import 
import 


val data = Seql( 








(7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0), 
(8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0), 
(9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0) 





) 








val df = spark.createDataset (data) .toDF ("id", "features", "clicked") 








val selector = new ChiSqSelector () 
tNumTopFeatures (1) 
.SetFeaturesCol ("features") 
.SetLabelCol ("clicked") 
.SetOutputCol ("selectedFeatures") 


















































val result = selector.fit (df) .transform (df) 














printlin(s"ChiSgqSelector output with top ${selector.getNumTopFeatures} features selected") 
result. show () 























结果 显示 : 
PE EE ia 十 | : 
id features|clicked|selectedFeatures 
ZE0a0. O00 L180 L0] 1.0 [18.0] 
8 L005:071207050] 0.0 [12.0] 
9|[1.0;0.0; 15.0701] 0.0 [15.0] 
HE I EE PE PE RN 二 

















4.4 人 小结 


本 章 主要 介绍 了 对 数据 特征 或 变量 的 一 些 常 用 操作 ， 包 括 特征 提取 、 特 征 转换 以 及 特征 选择 等 方法 ， 这 些 任务 在 实际 项 目 中 往往 会 花费 大 量 时 间 和 精力 ， 尤 其 要 自己 编写 这 方面 的 代码 或 函数 时 更 是 如 
此 ，Spark ML 目前 提供 了 很 多 现成 的 函数 ， 有 效 使 用 这 些 函 数 将 有 助 于 提供 我 们 的 开发 效率 ， 同 时 使 我 们 有 更 多 时 间 优 化 或 提升 模型 性 能 。 下 一 章 我 们 将 介绍 优化 或 提升 模型 性 能 的 一 些 方法 。 


第 5 章 ”模型 选择 和 优化 


本 章 主 要 介绍 如 何 使 用 Spark ML 提供 的 方法 及 自 定 义 函 数 等 方法 来 对 模型 进行 调 优 。 我 们 可 以 通过 Spark ML 内 建 的 交叉 验证 、 训 练 验证 拆 分 法 、 网 格 参数 等 方法 进行 模型 调 优 ， 当 然 也 可 以 自 定 义 函 
数 进 行 模型 优化 。 


本 章 主 要 内 容 包括 : 
模型 选择 
` 交 又 验证 
` 训练 验证 拆 分 法 


. 自 定义 函数 调 优 


5.1 ”模型 选择 
调 优 可 以 对 单个 Estimator 进 行 ， 比 如 逻辑 回归 ， 或 者 对 包含 多 个 算法 、 特 征 化 和 其 他 步骤 的 整个 Pipline 进 行 。 用 户 可 以 一 次 性 对 整个 Pipline 进 行 调 优 ， 而 不 必 对 Pipline 中 的 每 一 个 元 素 进 行 单独 调 
优 。 
MLlib 支 持 使 用 像 交 叉 验 证 (CrossValidator) 和 训练 验证 拆 分 法 (TrainValidationSplit) 这 样 的 工具 进行 模型 选择 (Model Selection) 。 这 些 工具 需要 以 下 组 件 : 
. Estimator: 用 户 调 优 的 算法 或 Pipeline。 
` ParamMap 集 合 : 提供 参数 选择 ， 有 时 也 叫 作用 户 查找 的 “参数 网 格 。 
.Evaluator: 衡量 模型 在 测试 数据 上 的 拟 合 程度 。 
这 些 模型 选择 工具 的 工作 方式 如 下 : 
将 输入 数据 切 分 成 训练 数据 集 和 测试 数据 集 。 
对 于 每 一 个 〈 训 练 数据 ， 测 试 数据 ) 对， 通过 ParamMap 集 合 进 行 和 迭代: 
.对 于 每 个 ParamMapb， 使 用 它 提 供 的 参数 对 Estimatot 进 行 拟 合 ， 给 出 拟 合 模型 ， 然 后 使 用 Evaluator 来 评估 模型 的 性 能 。 
` 选择 表现 最 好 的 参数 集合 生成 的 模型 。 


其 中 ， 对 于 回归 问题 评估 器 可 选择 RegressionEvaluator， 二 值 数 据 可 选择 BinaryClassifica-tionEvaluator， 多 分 类 问题 可 选择 MulticlassClassificationEvaluator。 评 估 器 里 默认 的 评估 准则 可 通过 
setMetricName 方 法 重 写 。 用 户 可 通过 ParamGridBuilder 构 建 参数 网 格 。 


5.2 ”交叉 验证 


模型 选择 是 Spark ML 的 重要 内 容 ， 而 采用 Pipeline 方 式 又 使 模型 选择 变 得 可 行 高 效 。 调 优 时 ， 只 需 对 整个 Pipeline 进 行 调整 ， 而 不 必 对 每 个 元 素 调整 。 目 前 ML 使 用 交叉 验证 (Cross-validation) 进行 
x 


模型 选择 。 Cross-validator 本 身 带 有 一 个 Estimator、 一 个 Evaluator 及 一 组 ParamMap。 


Cross-validator 先 将 


在 整个 参数 网 格 中 进 


数据 集 划分 多 组 (如 Kk 组 ) ， 每 组 由 训练 集 和 测试 集 组 成 。 例 如 ，k=3 折 时 ，CrossValidator 会 生成 3 个 (训练 数据 ， 测 斌 数据) 对， 每 一 个 数据 对 的 训练 数据 占 2/3， 测 斌 数据 占 
1/3。 人 迭代 ParamMap 集 合 ，CrossValidator 会 计算 这 三 个 不 同 的 (训练 ， 测 试 ) 数据 集 对 在 Estimator 拟 合 出 的 模型 上 的 平均 评估 指标 。 在 找 出 最 好 的 ParamMap 后 ，CrossValidator 会 使 用 这 个 
ParamMap 和 整个 数据 集 来 重新 拟 合 Estimator。 


井 行 交叉 验证 是 比较 耗 时 的 。 例 如 ， 在 下 面 的 例子 中 ， 
个 不 同 的 模型 将 被 训练 。 在 真实 场景 中 ， 很 可 能 使 用 更 多 的 参数 和 进行 更 多 


叉 验 证 法 ， 对 比 手 动 调 优 ， 还 是 有 较 大 优势 。 


下 面 通过 示例 说 明 如 何 使 用 CrossValidator 从 整个 网 格 的 参数 中 选择 合适 的 参数 。 


1) 导入 必要 的 包 : 


jmpor 
impor 
impor 
impor 
impor 
impor 
impor 


Ord . 
Ord . 
GEG: 
org. 
org. 
org. 
Ord 








tr et rE th rt er 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 



































spark.ml .classification.{LogisticRegression,LogisticRegressionModel} 
spark.ml. {Pipeline,PipelineModel} 

spark.ml .evaluation.BinaryClassificationEvaluator 

spark.ml .feature. {HashingTF, Tokenizer} 

spark.ml.linalg.Vector 

spark.ml .tuning.{CrossValidator, ParamGridBuilder} 














spark.sqgl .Row 


2) 生成 一 个 含 id、text、label 的 训练 数据 集 : 


val training = spark.createDataFrame (Seqg( 





0 2 OV OT 
LC 
s 


OO 
Et 





一 一 一 一 一 一 一 一 一 一 一 一 
N 











) ) .toDF ("id", 


3) 配置 一 个 





L, "abcde spark", 1.0), 





Ly "Bd" O07), 
L, "spark f g h", 1.0), 
L, "hadoop mapreduce", 0.0), 
L, "b spark who", 1.0), 
Vg Qa yy 00) 
br “Spack fly"y 1..0); 


L, "was a 0..0)s 








流水 线 ， 该 流水 线 包含 3 个 stage: tokenizer、 


, "spark compile", 1.0), 
1L, "hadoop software", 0.0) 
"text", "label") 





val tokenizer = new Tokenizer () 











.SetOutpu 








.SetInputCol ("text") 
tCol ("words") 


val hashingTF = new HashingTF () 





.SetInputCol 


(tokenizer.getOutputCol) 








.SetOutpu 





tCol (" 








fFeatures") 





val lr = new LogisticRegression () 

















.SetMaxIter (10) 








val pipeline = new Pipeline() 








.SetStages (Array (tokenizer, hashingTF, 1r)) 


4) 使 用 ParamGridBuilder 构 造 一 个 参数 网 格 : 





val paramGrid = new ParamGridBuilder () 
.addGrid (hashingTF.numFeatures, Array(10, 100, 1000)) 
.addGrid(lr.regParam, Array(0.1, 0.01)) 














.build() 


5) 将 流水 线 嵌 入 到 CrossValidator 实 例 中 ， 


Val cv = new CrossValidator () 


en 








.Se 


Estima 





tor (pipeline) 





1 


.Sel 


Evaluat 








tor (new BinaryClassificationEvaluator) 




















. Sel 


6) 通过 交 


val cvModel 
val test = 








4 
Sle “mi 
6 
2 


) ) .toDF' ("id 


.SetEstima 
tNumFolds (2) 


叉 验 证 模 





torParamMaps (ParamGrid) 


型 ， 获 取 最 优 参 数 集 ， 并 测试 模型 





一 CV 。 


i) 





fit (training) 
spark.createDataFrame (Seq( 
LD, "Spark 1 J] kk") 





L, "mapreduce spark"), 
L, "apache hadoop") 


1 地 mw text 1 ) 





Val Predictions=cvModel .transform (test) 


Predictions.select(" 


.Collect( 





) 














这 样 流水 线 的 任务 都 可 使 用 参数 网 格 。 


hashingTF 和 |r。 


id", "text", "probability", "prediction") 


.foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) => 


printlin(s"($id, $text) --> prob=$prob, prediction=$prediction") 


} 





7) 查看 最 佳 模型 中 的 各 参数 值 : 








Val bestModel= cvModel .bestModel.asIinstanceOf [PipelineModel] 














val lrModel = bestModel .stages (2) .asInstanceof [LogisticRegressionModel | 














5.3 训 搬 








lrModel.getRegParam // 显 示 为 :0.1 
]rModel.numFeatures // 显 示 结 果 为 :100 





验证 拆 分 分 : 


除 CrossValidator 外 ，Spark 还 提供 了 用 于 超 参 数 调 优 的 训练 验证 拆 分 法 (TrainValida-tionSplit) 。 


CrossValidator 的 k 次 评估 ，TrainValidationSplit 只 对 每 个 参数 组 合 评估 一 次 。 因 此 它 的 评估 代价 没有 那么 
这 个 可 以 根据 需要 进行 修改 或 调整 。 


和 测试 数据 集 对 ， 


一 般 是 


75% 的 数据 用 于 培训 ，25% 用 于 验证 ， 当 然 ， 


) 。 


使 用 CrossValidator 的 代价 可 


参数 网 格 有 3 个 hashingTF.numFeatures 值 和 2 个 Ir.regParam 值 ，CrossValidator 使 用 2 折 切 分 数据 。 最 终 将 有 (3*2) *2=12 
折 切 分 (k=3 和 k=10 都 很 常见 


能 会 异常 的 高 ， 当 数据 集 比 较 大 时 ， 慎重 选择 。 不 过 采用 交 


BinaryClassificationEvaluator 默 认 的 评估 指标 为 AUC (areaUnderROC) 。 


不 同 于 CrossValidator， een (训练 ， 测 试 ) 数据 集 对 。 相 对 于 


一 :一 
号 


[后 


但 在 训练 数据 集 不 够 大 时 其 结 


可 能 没有 交叉 验证 的 理想 。TrainValidationSplit 将 生成 训练 


像 CrossValidator 一 样 ，TrainValidationSplit 最 终 适 合 使 用 最 好 的 ParamMap 和 整个 数据 集 的 Estimator。 


import 
import 
import 








// 准备 训练 数据 和 测试 数据 


val data spark.read. 


val 


org.apache. spark.ml 
org.apache .spark.ml] 
org.apache.spark.ml. 





.regression.] 





.evaluation.RegressionEvaluator 




















forma 














val 


. SetMax] 


// 我 们 使 用 ParamGriqi 


// Trai 





lr = new Linear 


Regression () 











[ter (10) 











nValidationSplit 将 尝试 所 有 值 的 组 合 ,3 








val paramGrid 


.addGrid(lr.regParam, Array(0.1, 0.01)) 
.addGrid(lr.fitIntercept) 
.addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0)) 
.build() 


// 在 这 种 情况 下 ,估计 量 就 是 线性 





new ParamGridBuil] 























tuning. {ParamGridBuil] 





,jnearRegression 


der, TrainValidationSplit} 





t ("libsvm") .load ("fi] 


der () 











Builder 构 建 一 个 搜索 参数 网 格 















































回归 


确定 使 用 最 佳 模 型 


// TrainValidationSp1 让 需要 估计 器 ,一 组 估计 器 参数 映射 和 一 个 评估 器 




















Regressionl 








Evaluator) 





val trainValidation 
.SetEstimator (1r) 
.SetEvaluator (new 
.SetEstima 








// 80% 的 数据 用 于 培 




















// 使 用 验 说 








torParamMaps (ParamGrid) 
setTrainRatio (0.8) 











训 , 其 余 20$ 用 于 验证 
E 拆 分 训练 ,并 选择 最 佳 的 一 组 参数 














val model = trainValidationSp] 









































it.fit (training) 





// 对 测试 数据 进行 预测 ,模型 具有 最 佳 性 能 的 参数 组 合 
model .transform (test) 
.Select ("features", "label", "prediction") 
.Show () 


3.4 ” 目 定 义 模型 选择 


下 面 ， 我 们 将 通过 一 个 完整 示例 来 讲解 自 定义 模型 选择 。 


Split = new TrainValidationSplit() 








e:///u01l/bigdata/spark/data/mllib/sample linear regression data.txt") 
Array (training, test) = data.randomSplit (Array (0.9, 0.1), seed = 12345) 












































Evaluator 








'SModel} 














nt, rating: FJ] 























import org.apache.spark.sqgl.SparkSession 
import org.apache.spark.sqgl .Row 
import org.apache.spark.sql.Dataset 
import org.apache.spark.sqgl.DataFrame 
import org.apache.spark.ml .Pipeline 
import org.apache.spark.ml .evaluation.Regressionl 
import org.apache.spark.ml .recommendation. {ALS,AI] 
case class Rating(userId: Int, movield: 
def parseRating(str: String): Rating = { 
val fields = str.split("::") 
assert (fields.size == 4) 
Rating (fields (0) .toInt, fields(1) .toInt, 











} 


val ratings 





























sample movielens ratings.txt") 





.map (parseRating) 

























































































































































































fields (2) .toFloat, 























oat, timestamp: Long) 


spark.read.textFile ("file:///u0l/bigdata/spark/data/mllib/als/ 


fields (3) .toLong) 





.toDF () 
// 将 样本 评分 表 分 成 3 个 部 分 ,分 别 用 于 训练 (60%)， 校 验 (20%) 和 测试 (20%) 
val splits = ratings.randomSplit (Array (0.6, 0.2,0.2),12) 
// 把 训练 样本 缓存 起 来 ,加 快运 算 速度 
val training = splits (0) .cache () 
val validation = splits(1) .toDF.cache() 
val test = splits(1) .toDE .cache () 
// 计 算 各 集合 总 数 
val numTraining = training.count () 
val numValidation = validation.count () 
val numTest = test.count () 
// 训 练 不 同 参数 下 的 模型 ,并 在 校 验 集中 验证 ,获取 最 佳 参 数 下 的 模型 
val ranks = List(20, 40) 
val lambdas = List(0.01, 0.1) 
val numIters = List(5, 10) 
Var bestModel: Option[ALSModel] = None 
var bestValidationRmse = Double.MaxValue 
var bestRank = 0 
var bestLambda = 1.0 
Var bestNumIter = 1 
def computeRmse (model:ALSModel,data:DataFrame,n:Long) :Double = { 
val predictions = model .transform(data) 
val pl=predictions.rdd.map{ x =>((x(0),x(1)),x(2))}.join(predic 
math.sqrt (pl.map( x => (x. 1.toString.toDouble - x. 2.toString. 
} 
for (rank <- ranks; lambda <- lambdas; numIter <- numIters) { 
val als = new ALS () 
.SetMaxIter (numIter) 
.SetRegParam (lambda) 
.SetRank (rank) 
.SetUserCol ("userId") 
.SetItemCol ("movieId") 
.SetRatingCol ("rating") 
val model = als.fit (training) 
val validationRmse = computeRmse (model, validation, numValidation) 
println ("RMSE (validation) = " + validationRmse + " for the model trained with rank = " 
+ rank + ",lambda = " + lambda + ",and numIter = " + numIter + ".") 































































































































































































































































































tions.rdd.map{ x =>((x(0),x(1)),x(4))}) .values 
toDouble) * (x. 1.toSstring.toDouble - x. 2.toString.toDouble)).reduce( + )/n) 


if (validationRmse < bestValidationRmse) { 

bestModel = Some (model) 

bestValidationRmse = validationRmse 

bestRank = rank 

bestLambda = lambda 

bestNumIter = numIter 

} 
} 

RMSE (validation) = 1.544091979633677 for the model trained with rank = 20,1lambda = 0.01,and numIter = 5. 
RMSE (validation) = 1.3973269424767092 for the model trained with rank = 20,1ambda 0.01,and numIter = 10. 
RMSE (validation) = 1.0381748242379452 for the model trained with rank = 20,1lambda = 0.1,and numIter = 5. 
RMSE (validation) = 1.0059139723438042 for the model trained with rank = 20,1lambda = 0.1,and numIter 10. 
RMSE (validation) = 1.5545572907673506 for the model trained with rank = 40,1lambda = 0.01,and numIter = 5. 
RMSE (validation) = 1.390163394916565 for the model trained with rank = 40,1lambda = 0.01,and numIter O's 
RMSE (validation) = 1.0520138790334888 for the model trained with rank = 40,1lambda = 0.1,and numIter = 5. 
RMSE (validation) .0132571682721812 for the model trained with rank = 40,1lambda = 0.1,and numIter = 10. 
// 用 最 佳 模型 预测 测试 集 的 评分 ,并 计算 和 实际 评分 之 间 的 均 方 根 误差 (RMSE) 
val testRmse = computeRmse (bestModel.get, test, numTest) 
testRmse: Double = 1.0059139723438042 
printlin("The best model was trained with rank = " + bestRank + " and lambda = " + bestLambda + ", angd numl 











[ter = " + bestNum] 





[ter + ", and its RMSI 


F 





Ly 


on the test set is 


"” 十 testRms 





// 最 佳 模型 相关 参数 
The best model was trained with rank = 20 and lambda = 0.1, and numIter = 10, and its RMSE on the test set is 1.0059139723438042 . 

















5.5 小结 


本 章 主要 介绍 了 几 种 模型 选择 或 调 优 的 方法 ， 我 们 可 以 从 训练 的 数据 集 入 手 ， 可 以 从 模型 参数 入 手 ， 当 然 也 可 以 把 两 者 结合 起 来 使 用 。 实 际 上 模型 的 优化 还 有 很 多 其 他 方法 ， 如 使 用 不 同 的 算法 、 集 成 
算法 等 。 下 一 章 我 们 将 介绍 Spark MLlib 的 一 些 基 础 知识 ， 包 括 Spark MLIib 架 构 、 原 理 、 算 法 及 算法 依赖 的 一 些 库 、 向 量 和 矩 阵 等 相关 内 容 。 


第 6 章 Spark MLlib 基 础 


传统 的 机 器 学 习 算 法 ， 由 于 技术 和 单机 存储 的 限制 ， 只 能 在 少量 数据 上 使 用 。 一 旦 数据 量 过 大 ， 往 往 需 要 采用 数据 抽样 的 方法 。 但 这 种 抽样 很 难保 证 不 走样 。 近 些 年 随 着 HDFS 等 分 布 式 文件 系统 出 现 ， 
存储 海量 数据 已 经 成 为 可 能 量 数据 上 进行 机 器 学 习 变 得 可 能 或 必要 ， 通 过 MapReduce 计 算 框 架 虽然 可 以 实现 分 布 式 计算 ,但 中 间 结 果 需 要 存在 到 磁盘 ， 这 对 于 计算 过 程 中 需要 多 次 迭 代 的 机 器 学 习 
(因为 通常 情况 下 机 器 学 习 算法 参数 学 习 的 过 程 都 是 迭代 计算 的 ) 来 说 不 很 理想 。 


Spark 的 出 现 正 好 弥补 了 MapReduce 的 不 足 ， 它 立足 于 内 存 计算 ， 所 以 特别 适合 机 器 学 习 的 迭代 式 计算 。 同 时 Spark 提 供 了 一 个 基于 海量 数据 的 分 布 式 运 算 的 机 器 学 习 库 ， 同 时 提供 了 很 多 特征 选取 、 
特征 转换 等 内 府 浮 数 ， 大 大 降低 了 大 家 学 习 和 使 用 Spark 的 门槛 。 对 开发 者 来 说 只 需 有 一 定 Spark 基 础 、 了 解 机 器 学 习 算 法 的 基本 原理 及 相关 参数 的 含义 和 作用 ， 都 可 以 比较 顺利 地 使 用 Spark 进 行 基于 大 数 
据 的 机 器 学 习 


spark 在 机 器 学 习 方面 有 很 多 优势 ， 本 章 主 要 介绍 Spark 与 机 器 学 习 相 关 的 内 容 。 
. Spatk MLlib 简 介 

. Spatk MLlib 架 构 

- 常用 的 几 种 数据 类 型 

. 基础 统计 

. RDD、DataFrame 及 Dataset 间 的 异同 


Spatk MLlib 常 用 算法 


6.1 Spark MLlib 人 简介 


MLlib 是 Spark 的 机 器 学 习 (ML) 库 ， 通 过 该 库 可 简化 机 器 学 习 的 工程 实践 工作 ， 并 方便 扩展 。 


MLIib 由 一 些 常用 的 学 习 算 法 和 工具 组 成 ， 包 括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 降 维 等 ， 同 时 还 包括 底层 的 优化 和 高 层 的 流水 线 API。 它 基于 RDD， 可 以 与 Spark SQL、GraphX、Spark Streaming 无 
颖 连接 。MLllib 目 前 分 为 两 个 代码 包 : 


1.spark.mllib 


spark.mllib 包 含 基于 RDD 的 原始 算法 API。 目 前 支持 4 种 常见 的 机 器 学 习 问题 : 分 类 、 回 归 、 聚 类 和 协同 过 滤 。MLIib 在 Spark 整 个 生态 系统 中 的 位 置 如 图 6-1 所 示 。 


k means 








图 6-1 Spatk MLlib 算 法 生态 


Mulib 是 MLBase 一 部 分 ， 其 中 MLBase 分 为 四 部 分 :MLlib、MLI、ML Optimizer 和 MLRuntime。 它 们 的 结构 如 图 6-2 所 示 。 


ML Optimizer 








图 6-2 MLBase 四 部 分 关系 


ML Optimizer: 会 选择 它 认 为 最 适合 的 已 经 在 内 部 实现 好 了 的 机 器 学 习 章法 和 相关 参数 ， 来 处 理 用 户 输入 的 数据 ， 并 返回 模型 或 别 的 帮助 分 析 的 结果 ; 
- MLI: 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 的 算法 实现 的 API 或 平台 ; 


- MLlib: 提供 了 Spark 实 现 一 些 常见 的 机 器 学 习 算 法 和 实用 程序 ， 包 括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 降 维 以 及 底层 优化 ， 该 算法 可 以 进行 可 扩充 ; 
Spa: MLRuntime 基 于 Spatk 计 算 框架 ， 将 Spatk 的 分 布 式 计 算 应 用 到 机 器 学 习 领 域 。 


2.spark.ml 


提供 了 基于 DataFrames 高 层次 的 APl，Spark ML API 提 供 了 很 多 数据 处 理 函 数 ， 如 特征 选取 、 特 征 转换 、 类 别 数 值 化 、 正 则 化 、 降 维 等 。 此 外 ，spark.ml 通 过 构建 一 个 机 器 学 习 流 水 线 ， 为 我 们 提供 
了 更 灵活 的 方法 ， 把 机 器 学 习 过 程 一 些 任务 有 序 组 织 在 一 起 ， 便 于 运行 ， 也 便于 环境 的 迁移 。Spark 官 方 推荐 使 用 spark.ml。 


如 果 新 的 算法 能 够 适用 于 机 器 学 习 管 道 的 概念 ， 就 应 该 将 其 放 到 spark.ml 包 中 ， 如 特征 提取 器 和 转换 器 。 开 发 者 需要 注意 的 是 ， 从 Spark 2.0 开 始 ， 基 于 RDD 的 API 进 入 维护 模式 〈 即 不 增加 任何 新 的 特 
性 ) ， 并 预期 于 3.0 版 本 的 时 候 被 移 除 出 MLlib， 因 此 ， 本 书 也 主要 以 m| 包 为 主 。 


6.2 Spark MLIib 架 构 


图 6-3 为 Spark MLlib 的 架构 图 。 
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图 6-3 ”Spatk MLlib 架 构 


由 图 6-3 可 知 : 


` 底层 基础 : 包括 Spak 的 运行 库 、 纶 阵 库 和 向 量 库 等 。 其 中 向 量 接 口 和 矩阵 接口 都 会 使 用 Scala 语 言 基 于 Netlib 和 BLAS/LAPACK 开 发 的 线性 代数 库 Breeze。MIlib 支 持 本 地 的 密集 向 量 和 稀疏 向 量 ， 并 且 支 
持 标 记 向 量 。MLlib 同 时 支持 本 地 答 阵 和 分 布 式 和 矩阵 ， 支 持 的 分 布 式 矩 阵 分 为 RowMattix、IndexedRowMattix、CootdinateMtattfix 等 。 


. 算法 库 : 包含 广义 线性 模型 、 推 荐 系统 、 聚 类 、 决 策 树 和 评估 的 算法 。 


` 模型 评级 : 对 模型 进行 评估 。 


6.3 ”数据 类 型 


Spark MLlib 的 数据 类 型 主要 分 为 4 种 ， 下 面 将 分 别 介绍 。 
1. 本 地 向 量 (Local vector) 


本 地 向 量 主要 分 为 DenseVector 和 SparseVector 两 种 ， 前 者 用 来 保存 稠密 向 量 ， 后 者 用 来 保存 稀疏 向 量 ， 如 向 量 (1.0，0.0，3.0) 的 稠密 向 量 为 [1.0，0.0，3.01， 而 对 应 的 稀 中 向 量 为 (3，[0，2]， 
[1.0，3.0]) ， 此 处 ，3 代 表 向 量 长 度 。 其 创建 方式 主要 有 以 下 几 种 : (以 下 使 用 Scala 语 言 


spark-shell --master spark://master:7077--total-executor-cores 2 
// 创 建 一 个 稠密 向 量 
scal la>import org.apache.spark.mllib.linalg. {Vector, Vectors} 

2 a> val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) 
org.apache.spark.mllib.linalg.Vector = [1.0,0.0,3.0] 

// 钉 是 个 宁 六 向 定 说 明 非 零 项 的 索引 和 值 

scala> val svl: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)) 
svl: org.apache.spark.mllib.linalg.Vector = (3,10,2],1{1.0,3.0]) 

// 创 建 一 个 稀 踊 向 量 , 采用 序列 方式 说 明 
scala> val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))) 
sv2: org.apache.spark.mllib.linalg.Vector = (3,10,2],1{1.0,3.0]) 



























































2. 标 记 点 (Labeled point) 


标记 点 是 由 一 个 本 地 向 量 (密集 或 稀 琉 ) 和 一 个 标签 (整数 或 浮 点 ) 组 成 ， 这 个 值 的 具体 内 容 可 以 由 用 户 指 定 。 


import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.regression.LabeledPoint 
// 用 稠密 向 量 创建 标记 点 
scala> val pos = Labe] edPoint (1. 0, Vectors.dense(1.0, 0.0, 3.0)) 

pos: org.apache.spark.mllib.regression.LabeledPoint = (1.0,[1.0,0.0,3.0]) 
// 用 稀 玖 向 量 创建 标记 点 
scala> val neg = LabeledPoint (0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))) 
neg: org.apache.spark.mllib.regression.LabeledPoint = (0.0, (3,[0,2],[1.0,3.0])) 
























































从 文件 中 直接 获取 标记 点 : 








import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.util.MLUtils 
import org.apache.spark.rdd.RDD 

















val examples: RDD[LabeledPoint] = MLUtils.loadLibSVvMFilel(sc, "file:///home/hadoop/bigdata/spark/data/mllib/sample libsvm data.txt") 





3. 本 地 和 矩阵 (Local matrix) 


由 行 索引 、 列 索引 、 类 型 值 组 成 ， 存 放 在 单机 中 。 


scala> import org.apache.spark.mllib.1linalg. {Matrix, Matrices} 

// 创建 一 个 稠密 矩阵 ((1.0，2.0)，(3.0，4.0)，(5.0,，6.0)) 

scala> val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0)) 
dm: org.apache.spark.mllib.linalg.Matrix = 

li0 ， 20 

3.0 4.0 

9.0 60 

// 创建 一 个 稀 玻 窍 阵 ((9.0，0.0)，(0.0，8.0)，(0.0，6.0)) 

scala> val sm: Matrix = Matrices.sparse(3，2，Array(0，1，3)，Array(0，2，1)，Array(9，6，8)) 
sm: org.apache.spark.mllib.linalg.Matrix = 

3 x 2 CSCMatrix 



































(0,0) 9.0 
{2,1) 6G.0 
(ly1) 20 





4. 分 布 式 矩阵 (Distributed matrix) 
Spark MLlib 提 供 了 4 种 分 布 式 矩 阵 的 实现 ， 依 据 数据 的 不 同 特 点 ， 可 以 选择 不 同类 型 的 分 布 式 和 矩阵 实现 。 


RowMatrix: 最 基础 的 分 布 式 给 阵 ， 它 只 是 将 殉 阵 存储 起 来 ， 不 能 按照 行 号 访问 。 





scala>import 
scala>import 


org.apache.spark.mllib.linalg.Vector 
org.apache.spark.mllib.linalg.distributed.RowMatrix 















































scala>val rows: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/OEBPS/Text/... // 确定 参数 * 
// 从 RDD[Vector] 创 建 分 布 式 矩 阵 
scala>val mat: RowMatrix = new RowMatrix (rows) 
// 获取 和 矩阵 行列 数 
scala>val m = ma 
scala>val n = ma 



































.numRows () 
.numCols () 

















如 何 得 到 一 个 RDD[Vector]? 以 下 是 方法 之 一 : 


val vO = Vectors.dense(1.0, 0.0, 3.0) 
val v1 = Vectors.dense(3.0,2.0, 4.0) . 
val rows = sc.parallelize (Seq (vO, v1)) // 这 是 一 个 RDD [Vector] 














.IndexedRowMatrix: 与 RowMattix 矩 阵 的 不 同 之 处 在 于 ， 它 可 以 通过 索引 值 来 访问 每 一 行 ， 其 他 基本 类 似 。 


. CoordinateMattix: 当 你 的 数据 特别 稀 芷 的 时 候 怎么 办 ? 采用 这 种 矩阵 比较 适合 。 


: BlockMatrix: 分 布 式 矩阵 RDD[IMarixBlock]， 此 处 MatrixBlock 是 元 组 ( (Int，Int) ，Mattixz) ， 其 中 (Int，Int) 是 矩阵 块 的 索引 ，Mattix 是 给 定 矩 阵 块 索引 的 子 和 矩阵 ， 短 阵 维度 (是 数 绎 


rowsPerBlock*colsPerBlock。 


6.4 ”基础 统计 


MLlib 提 供 了 很 多 统计 方法 ， 是 对 RDD 格 式 数 据 的 统计 ， 包 括 摘 要 统计 、 相 关 统 计 、 分 层 统计 、 假 设 检验 、 随 机 数 生成 、 流 显著 性 验证 、 核 密度 估计 等 ， 这 些 涉及 统计 学 、 概 率 论 等 专业 知识 。 下 面 就 


常用 部 分 进行 说 明 。 


6.4.1 摘要 统计 


对 于 RDD[Vecton 类 型 的 列 统计 信息 ，spark MLlib 提 供 了 一 种 名 为 colStats () 的 统计 方法 ， 即 摘要 统计 (summary statistic) 方法 。 调 用 该 方法 可 以 计算 每 列 的 最 大 值 ， 最 小 值 ， 均 值 、 方 差 、 总 


数 、L1 范 数 、L2 范 数 等 。 示 例 代 码 如 下 : 








org.apache.spark.mllib.linalg. {Vector,Vectors} 
org.apache.spark.mllib.stat. {MultivariateStatisticalSummary, Statistics} 
val data=sc.parallelize (1 to 100,2) 

val datal=data.map (x=>Vectors .dense (x)) 

val statl=Statistics.colStats (datal) 

// 可 求 stat1 的 如 下 统计 值 : 
//count、max、mean、min、normL1、normL2、numNonzeros、vVariance 等 ,这 里 以 count 为 例 
statl.count // 显 示 为 100 

stat1 .normL] // 显 示 为 5050.0 











ct CT 










































































6.4.2 相关 性 


目前 Spark 支 持 两 种 相关 性 (correlation) 系数 : 皮尔 森 相 关系 数 (Pearson) 和 斯 皮尔 曼 等 级 相关 系数 (Spearman) 。 相 关系 数 是 用 以 反映 变量 之 间 相 关 关 系 程度 的 统计 指标 。 其 取 值 范围 是 [- 


1]， 当 取 值 为 0 时 表示 不 相关 ， 取 值 为 [-1 ~ 0) 表示 负 相 关 ， 取 值 为 (0，1] 表 示 正 相关 。 


Pearson 相 关系 数 的 计算 公式 : 





其 中 n 为 样本 量 。Pearson 相 关系 数 反应 两 个 数值 变量 的 线性 相关 性 ， 它 一 般 适 用 于 正 态 分 布 。 


spearman 相 关系 数 也 用 来 表达 两 个 变量 的 相关 性 ， 但 是 它 没 有 Pearson 相 关系 数 对 变量 分 布 的 严格 要 求 ， 其 计算 公式 为 : 


1 - 


一 ] 








| 全 


下 面 通过 示例 说 明 相 关系 统 是 如 何 计算 的 。 


import org.apache.spark.SparkContext 
import org.apache.spark.mllib.linalg. 




















import org.apache.spark.mllib.stat.Statistics 
val x=sc.parallelize (Array(1.0,2.0,3.0,3.2,2.6)) 
val y=sc.parallelize (Array (4.0,5.0,6.0,4.2,5.6)) 

















val corr r=Statistics.corr (x, y, "pearson") 
val corr p=Statistics.corr(x, y, "spearman") 




















6.4.3 ”假设 检验 


关于 假设 检验 (Hypothesis testing) ，Spark MLlib 目 前 支持 皮尔 森 卡 方 检测 (Pearson”s chi-squared tests) ， 包 括 适 配 度 检测 和 独立 性 检测 。 适 配 度 检测 要 求 输入 为 Vector， 独 立 性 检验 要 求 输 


是 Matrix。 
. 适 配 度 检测 (Goodness of Fit test) ， 验 证 一 组 观察 值 的 次 数 分 配 是 否 异 于 理论 上 的 分 配 。 其 HO 假设 (虚无 假设 ，null hypothesis) 为 一 个 样本 中 已 发 生 事件 的 次 数 分 配 会 服从 某 个 特定 的 理论 分 布 。 通 
常情 况 下 这 个 特定 的 理论 分 配 指 的 是 均匀 分 布 ， 目 前 Spatk 默 认 的 是 均匀 分 布 。 
“ 独立 性 检测 (independence test) ， 验 证 从 两 个 变量 抽出 的 配对 观察 值 组 是 否 互 相 独 立 。 其 虚无 假设 是 : 两 个 变量 呈 统 计 独 立 性 。 


代码 示例 : 


import org.apache.spark.mllib.linalg. {Matrix, Matrices, Vectors} 
import org.apache.spark.mllib.stat.Statistics 


import org.apache.spark. {SparkConf, SparkContext} 




















val vd = Vectors.dense(1l, 2, 3, 4, 5) 
val vdResult = Statistics.chiSgqTest (vd) 








val mtx = Matrices.dense(3, 2, Array(l, 3, 5, 2, 4, 6)) 
val mtxResult = Statistics.chiSaTest (mtx) 











6.4.4 随机 数据 生成 
RandomRDDs 是 一 个 工具 集 ， 用 来 生成 含有 随机 数 的 RDD， 可 以 按 各 种 给 定 的 分 布 模式 正 态 分 布 、 泊 松 分 布 和 均匀 分 布 等 ) 生成 数据 集 ， 例 如 ， 按 正 态 分 布 生成 随机 数 。 
代码 示例 ; 


org.apache.spark.SparkContext 
org.apache.spark.mllib.random.RandomRDDs. 


jmpor 
jmpor 


// 生成 100 个 服从 正 态 分 布 N(0,1) 的 RDD (Double) ,并 且 分 布 在 10 个 分 区 中 
val u = normalRDD(sc, 100L, 10) 


// 把 生成 的 随机 数 转 换 为 N(1, 4) 正 态 分 布 


val Vv = u.map(x => 1.0 + 2.0 * x) 





























6.5 RDD、Dataframe 和 Dataset 


目前 ，spark.mllib 包 中 基于 RDD 的 API 已 进入 维护 模式 ， 以 后 将 以 spark.m| 包 中 的 基于 DataFrame 的 API 为 主 。 
这 一 改变 ， 将 会 带 来 哪些 影响 ” (以 下 主要 信息 摘自 Spark 官 网 : http://spark.apache.org。) 
. MLlib 将 继续 支持 基于 RDD 的 API。 


. MLlib 不 会 向 基于 RDD 的 API 中 添加 新 的 特征 。 


“ 在 Spark 2.0 以 后 的 版 本 中 ， 将 继续 向 基于 DataFrame 的 API 添 加 新 特征 以 缩小 与 基于 RDD 的 API 的 差异 。 
. 当 两 种 接口 之 间 达 到 特征 相同 时 (初步 估计 为 Spatk 2.2) ， 不 推荐 使 用 基于 RDD 的 API。 
. 基于 RDD 的 API 将 在 Spatk 3.0 中 被 移 除 。 
MLlib 中 基于 DataFrame 的 API 有 哪些 优势 ? 
: DataFrames 提 供 比 RDD 更 加 用 户 友好 的 API。DataFrames 包 括 Spatk Datasouftces、SQLV/DataFtrame 查 询 ， 采 用 Tungsten 和 Catalyst 优 化 以 及 跨 语 言 的 统一 API。 
. 基于 DataFrames 的 MLlib API 为 多 种 ML 算法 与 编程 语言 提供 统一 的 接口 。 


. DataFrames 有 助 于 实际 的 ML Pipelines， 特 别 是 特征 转换 。 


6.5.1 RDD 
RDD 是 Spark 建 立 之 初 的 核心 APl， 是 一 种 有 容错 机 制 的 特殊 集合 。RDD 是 不 可 变 分 布 式 弹性 数据 集 ， 在 Spark 集 群 中 可 跨 节点 分 区 ， 以 函数 式 编 程 操作 集合 的 方式 进行 各 种 并 行 操作 ， 提 供 分 布 式 low- 
level AP| 来 操作 ， 包 括 transformation 和 action 等 。 
它 提供 了 一 种 只 读 、 只 能 由 已 存在 的 RDD 变 换 而 来 的 共享 内 存 ， 然 后 将 所 有 数据 都 加 载 到 内 存 中， 方便 进行 多 次 重用 。 
RDD 优 点 : 
“ 编译 时 就 能 检查 出 类 型 错误 。 
* 面向 对 象 的 编程 风格 ， 可 直接 通过 类 名 点 的 方式 来 操作 数据 。 
RDD 缺 点 : 
.无论 是 集群 间 的 通信 ， 还 是 IO 操作 都 需要 对 对 象 的 结构 和 数据 进行 序列 化 和 反 序 列 化 。 
. 频繁 地 创建 和 销毁 对 象 ， 势 必 会 增加 GC 开 销 。 
RDD 使 用 场景 : 
: 使 用 low-level 的 transformation 和 action 来 控制 你 的 数据 集 。 
. 使 用 非 结 构 化 数据 集 ， 比 如 ， 流 媒体 或 者 文本 流 等 。 
` 使 用 函数 式 编程 来 操作 你 的 数据 ， 而 不 是 用 特定 领域 语言 (DSL) 表达 。 
:不在乎 schema， 比 如 ， 当 通过 名 字 或 者 列 处 理 〈 或 访问 ) 数据 属性 时 ， 不 在 意 列 式 存储 格式 。 


不 希望 使 用 DataFrame 和 Dataset 来 优化 结构 化 和 半 结 构 化 数据 集 。 


6.5.2 Dataset/DataFrame 


DataFrame 与 RDD 都 是 不 可 变 分 布 式 弹性 数据 集 。 不 同 之 处 在 于 ，DataFrame 多 了 数据 的 结构 信息 ， 即 schema， 类 似 于 传统 数据 库 中 的 表 。DataFrame 的 设计 是 为 了 让 大 数据 处 理 起 来 更 容易 ， 并 做 
了 higher-level 的 抽象 ”DataFrame 提 供 特定 领域 的 语言 (DSL) APl 来 操作 数据 集 。 


在 Spark 2.0 中 ，DataFrame API 将 会 和 Datasets API 合 并 ， 统 一 数据 处 理 API1， 如 图 6-4 所 示 。 





Datakrame DataFrame=Dataset[Row] 


Dataset sw Alias 
Python 、 有 R 





Dataset [| 工 | 
Scala、 Java 
图 6-4 统一 的 Apache Spark API 


Dataset/DataFrame 优 势 如 下 : 


(1) 简单 易 用 : 虽然 结构 化 数据 会 给 Spark 程 序 操作 数据 集 带 来 一 些 限 制 ， 但 它 却 引进 了 丰富 的 语义 和 易 用 的 DSL。Dataset 的 high-level API 支 持 大 部 分 计算 ,例如 agg、select、sum、avg、map、 
filter 或 者 groupBy 等 计算 。 


(2) 编译 时 就 可 捕捉 语法 错误 ， 如 图 6-5 所 示 。 


Datatrames Datasets 


Syntax Complle Complle 
Runtime | . 
Errors lime lime 


Analysis | Complle 
Runtime Runtime . 
Errors Time 





图 6-5 ”DataFrame、Dataset 编 译 时 捕获 错误 信息 


(3) 使 用 Catalyst 优 化 器 : DataFrame 和 Dataset APl 是 建立 在 Spark SQL 引擎 之 上 的 ， 它 会 使 用 Catalyst 优 化 器 来 生成 优化 过 的 逻辑 计划 和 物理 查询 计划 。Sscala、Java、Python 或 R 的 
DataFrame/Dataset API 使 得 查询 都 进行 相同 的 代码 优化 ， 以 及 空间 和 速度 的 效率 提升 。 


(4) 使 用 Tungsten 进 行内 存 管理 : Spark 作 为 编译 器 可 以 理解 Dataset 类 型 的 JVM object， 它 能 映射 特定 类 型 的 JVM object 到 Tungsten 内 存 管理 ,使 用 Encoder。Tungsten 的 Encoder 可 以 有 效 地 序 
列 化 / 反 序 列 化 VM object， 生 成 字 节 码 来 提高 执行 速度 。RDD 与 Dataset 使 用 cache 时 ， 内 存 的 大 致 统计 信息 如 图 6-6 所 示 。 


RDD 





0 15 30 45 00 


图 6-6 RDD、Dataset 使 用 cache 时 ， 内 存 使 用 情况 。 
Dataset/DataFrame 不 足 如 下 : 
(1) DataFrame 不 是 类 型 安全 的 ; 
(2) API 不 是 面向 对 象 风格 的 。 
Dataset/DataFrame 使 用 场景 如 下 : 
(1) 使 用 丰富 的 语义 、high-level 抽 象 和 特定 领域 语言 AP|; 
(2) 处 理 半 结 构 化 数据 集 需要 high-level 表 达 ， 如 filter、map、aggregation、average、sum、SQL 查 询 等 ， 列 式 访问 和 使 用 lambda 函 数 ; 
(3) 编译 时 利用 高 度 的 type-safety:; 
(4) 使 用 统一 和 简化 API 及 跨 Spark 的 Library; 


(5) Python、R 熟 悉 者 。 


6.5.3 ”相互 转换 


RDD、DataFrame 和 Dataset 间 可 以 互相 转换 。 


(1) RDD->DataFrame: 把 RDD 转 换 为 DataFrame 时 ， 需 要 确定 其 Schema ， 确 定 RDD 的 Schema 有 以 下 几 种 方法 : 在 利用 反射 机 制 推断 RDD 模 式 时 ， 需 要 首先 定义 一 个 case class， 因 为 ， 只 
case class 才 能 被 Spark 隐 式 地 转换 为 DataFrame; 当 无 法 提前 定义 case class 时 ， 就 需要 采用 编程 方式 定义 RDD 模 式 。 


(2) RDD->Dataset 
val ds=rdd.toDS () 


(3) DataFrame/Dataset->RDD: 把 DataFrame 或 者 Dataset 转 化 成 一 个 RDD， 只 需 简 单 的 调用 .rdd 即 可 。 


6.6 小 结 


本 章 主要 介绍 了 Spark MLlib 的 一 些 内 容 ， 包 括 MLlib 的 生态 、 架 构 等 内 容 ， 同 时 介绍 了 Spark MLlib 算 法 底层 依赖 的 基础 内 容 ， 如 数据 类 型 、 基 础 统计 等 ， 最 后 简单 介绍 了 RDD、DataFrame 与 
Dataset 间 的 异同 等 。 后 续 章节 我 们 将 通过 一 些 实例 ， 说 明 如 何 把 前 几 章 介绍 的 方法 应 用 到 具体 实例 中 。 


第 7 章 ”构建 Spark ML 推荐 模型 


前 面 我 们 介绍 了 机 器 学 习 的 一 般 步骤 、 如 何 探 索 数 据 、 如 何 预 处 理 数据 、 如 何 利用 Spark MI 中 的 一 些 算法 或 APl， 以 及 如 何 有 效 处 理 机 器 学 习 过 程 中 的 特征 转换 、 特 征 选择 、 训 练 模型 ， 并 把 这 些 过 程 
流程 化 等 。 从 本 章 开 始 ， 我 们 将 通过 实例 ， 进 一 步 前 述 这 些 问 题 ， 并 通过 实例 把 相关 内 容 有 机 结合 起 来 。 


本 章 主要 介绍 Spark 机 器 学 习 中 的 协同 过 滤 (Collaborative Filtering，CF) 模型 。 协 调 过滤 简 单 来 说 就 是 利用 某 个 兴趣 相投 、 拥 有 共同 经 验 之 群体 的 喜好 来 为 使 用 户 推荐 其 感 兴趣 的 资讯 ， 个 人 通过 合 
作 的 机 制 给 予 资讯 相当 程度 的 回应 (如 评分 ) 并 记录 下 来 以 达到 过 滤 的 目的 ， 进 而 帮助 别人 筛选 资讯 。 回 应 不 一 定局 限于 特别 感 兴趣 的 ， 特 别 不 感 兴趣 资讯 的 记录 也 相当 重要 。 在 日 常生 活 中 ， 人 们 实际 上 
经 常 使 用 这 种 方法 ， 如 你 哪 天 突然 想 看 个 电影 ， 但 你 不 知道 具体 看 哪 部 ， 你 会 怎么 做 ”大 部 分 人 会 问 周围 的 朋友 ， 而 我 们 一 般 更 倾向 于 从 兴趣 或 观点 相近 的 朋友 那里 得 到 推荐 。 这 就 是 协同 过 滤 的 思想 。 换 
名 话说， 就 是 借鉴 和 你 相关 的 人 群 的 观点 来 进行 推荐 。 


本 章 介绍 Spark 的 推荐 模型 ， 将 按 以 下 步骤 进行 : 
. 推荐 模型 简介 

.加载 数据 到 HDFS 

“ Spatk 读 取 数 据 

. 对 数据 进行 探索 


“ 训练 模型 


评估、 优化 模型 


7.1 推荐 模型 简介 
协同 过 滤 常 被 用 于 推荐 系统 。 这 类 技术 目标 在 于 填充 “用 户 -商品 ”联系 矩阵 中 的 缺失 项 。Spark.ml 目 前 支持 基于 模型 的 协同 过 滤 ， 其 中 用 户 和 商品 以 少量 的 潜在 因子 来 描述 ， 用 以 预测 缺失 项 。 
Spark.ml 使 用 交 蔡 最 小 二 乘 (ALS) 算法 来 学 习 这 些 潜在 因子 。 


ALS (Alternating Least squares， 交 蔡 最 小 二 乘 ) 特 指 使 用 交 蔡 最 小 二 乘 求解 的 一 个 协同 推荐 算法 。 它 通过 观察 到 的 所 有 用 户 给 产品 的 打分 ， 来 推断 每 个 用 户 的 喜好 并 向 用 户 推荐 适合 的 产品 。 我 们 
看 看 表 7-1 所 示 的 这 个 用 户 给 物品 打分 的 和 矩阵 。 


表 7-1 打分 矩阵 


3 


推荐 系统 的 目标 就 是 预测 出 符号 “? ”对 应 位 置 的 分 值 (或 把 符号 为 “? ”的 项 补 全 ) 。 推 荐 系统 基于 这 样 一 个 假设 : 用 户 对 物品 的 打分 越 高 ， 表 明 用 户 越 喜欢 。 因 此 ， 预 测 出 用 户 对 未 评分 物品 的 评 
分 后 ， 根 据 分 值 大 小 排序 ， 把 分 值 高 (或 前 几 名 ) 的 物品 推荐 给 用 户 。 具 体 如 何 实现 ”这 里 采用 一 种 和 矩阵 分 解 的 方法 ， 如 图 7-1 所 示 。 


Item factormatrix 


k x m 


User-item Rating matrix User factor matrix 


nxm nxk 





图 7-1 ”矩阵 分 解 


ALS 的 核心 就 是 下 面 这 个 假设 : 被 打分 矩 阵 是 近似 低 秩 的 。 换 句 话说 ， 一 个 nxm 的 打分 矩 阵 A 可 以 用 两 个 小 矩阵 U (nxk) 和 V (kxm) 的 乘积 来 近似 : 


天 Mm. 








这 样 我 们 就 把 整个 系统 的 自由 度 从 O(nm) 一 下 降 到 了 O ( (n+m) k) 。 


在 具体 计算 过 程 中 ， 为 了 防止 过 度 拟 合 ， 加 上 正则 化 参数 : 
| | ? Fr r TrT、\2 rr 12 -x ||2 
LU,V)= 2 ,(R,- UV) +AQU,N + 


演 、 演 员 等 。 当 然 ， 这 些 隐 性 因子 是 机 器 学 习 得 到 的 ， 具 体 是 什么 含义 我 们 不 确定 。 
得 到 用 户 特征 因子 (nxk) 、 物 品 特征 因子 (kxm) 后 ， 计 算 用 户 相似 度 或 物品 相似 度 就 可 以 转换 为 求 两 用 户 特 征 因子 向 量 之 间 的 相似 度 ， 或 两 物品 特征 因子 向 量 之 间 的 相似 度 。 


矩阵 分 解 Spark 采 用 ALS。 它 功能 强大 、 效 果 理 想 而 且 易 实现 并 行 化 ， 故 特别 适合 Spark 平 台 。 


通过 学 习 ， 我 们 得 到 一 个 代表 用 户 的 特征 的 低 维 (nxk) 用 户 特征 因子 ， 另 一 个 代表 物品 特征 的 低 维 (kxm) 物品 特征 因子 。 特 征 因子 的 每 一 个 维度 代表 一 个 隐 性 因子 ， 比 如 对 电影 来 说 ， 这 些 隐 性 因 
月 已 
和 人 了 


ALS 的 实现 原理 是 迭代 式 求 解 一 系列 最 小 二 乘 回 归 问 题 。 每 一 次 迭代 时 ， 固 定 用 户 因子 或 物品 因子 矩阵 之 一 ， 然 后 用 固定 的 这 个 及 其 评级 数据 更 新 另 一 个 矩阵 ， 循 环 迭 代 ， 直 到 | 模型 收敛 或 迭代 到 指定 


次 数 。 


7.2 ”数据 加 载 


这 里 使 用 MovieLens 100k 数 据 集 ， 主 要 包括 用 户 属性 数据 (u.user) 、 电 影 数据 (u.item) 、 用 户 对 电影 的 评级 数据 (u.data) 及 题材 数据 (u.genre) 等 。 在 把 数据 复制 到 HDFS 之 前 ,我 们 先 大 致 


了 解 一 下 相关 数据 。 


用 户 数据 (u.user) 结构 : 


$ head -3 u.user 
1|24|M|technician|85711 
2|153|F|other|94043 
3|23|IM|writer|32067 

$ WC -1 u.user 

943 u.user 





可 以 看 出 用 户 数 据 有 user ID、age、gender、occupation 和 zip code 等 5 个 字段 ， 字 段 间隔 符 为 坚 线 ( “| ) ， 共 有 943 行 。 


电影 数据 (u.item) 结构 : 


head -3 u.item 














1995) |01-Jan-1995| |http://us.imdb.com/M/title-exact?Toy%20Story%20 (1995) 10101011111110101010101010101010101010 








1995) |01-Jan-1995| |http://us.imgdb.com/M/title-exact?GoldenEye%20(1995) 10111110101010101010101010101010111010 









































1995) |01-Jan-19951|1http://us.imqb .cormVM/ 人 tit1Le-exact?Fourgs20Roomsgs20 (1995) 10101010101010101010101010101010111010 
WC -1 u.itenm 








可 以 看 出 用 户 数据 有 movie 1D、title、release date 及 其 他 属性 ， 字 段 间 陋 符 为 坚 线 (“|”) ， 共 有 1682 行 。 


用 户 对 电影 评级 数据 (u.data) 结构 : 


$ head -3 u.data 

196 242 3 881250949 
186 302 局 891717742 
22 377 I 878887116 
$ wc -1 u.data 

100000 u.data 











可 以 看 出 用 户 数据 有 user ID、movie ID、rating (1-5) 和 timestamp 等 4 个 字段 ， 字 段 间隔 符 为 制 表 符 (“tt”) ， 共 有 100000 行 。 


电影 题材 数据 (u.genre) : 


$ head -3 u.genre 
unknown|0 
Action|l1 
Adventure|2 

Swc -1 u.genre 

20 u.genre 


这 个 数据 只 有 题材 及 代码 两 个 字段 ， 以 竖 线 分 隔 。 共 有 20 种 电影 题材 。 


7.4 省 


把 用 户 数据 (u.user) 复制 到 HDFS 上 ， 其 他 数据 方法 一 样 。 


$ hadoop 





查看 数据 复制 是 否 成 功 。 


$ hadoop 





fs -put u.user /home/hadoop/data/ 


fs -ls /home/hadoop/data/ 


把 相关 数据 复制 到 HDFS 后 ,我们 就 可 以 利用 Pyspark 对 数据 进行 探索 或 简单 分 析 ， 这 里 使 用 Pyspark 主 要 考虑 其 可 视 化 功能 ， 如 果 不 需 要 数据 的 可 视 化 ， 使 用 Spark 即 可 。 


以 Spark Standalone 模 式 启 动 Spark 和 集群 : 


spark-shell --master spark://master:7077 --driver-memory 1G --total-executor-cores 4 


导入 需要 的 包 或 库 : 


jmpor 
jmpor 
jmpor 
jmpor 





ch 








org.apache.spark.ml .evaluation.RegressionEvaluator 








org.apache.spark.ml .recommendation.ALS 
org.apache.spark.sqgil. 


SparkSession 








org.apache.spark.ml .Pipeline 


因 读 入 数据 默认 都 是 字符 格式 ， 故 需要 对 数据 进行 格式 转换 。 


// 定 义 个 类 ,来 保存 一 次 评分 


case class Rating (userId: Int, movielId: Int, rating: Float, timestamp: Long) 


// 把 一 行 转换 成 一 个 评分 类 






































def parseRating (str: String): Rating = { 





Val 











assert (fields.size == 4) 




















fields = str.split("\t") 








Rating (fields (0) .toInt, 











fields (1) .toInt, fi 





elds (2) .toFloat, fields (3) .toLong) 





读 取 并 缓存 数据 ， 因 后 面 需 要 多 次 使 用 这 份 数据 。 


val ratings = spark.read.textrFile ("hd 


.map (parseRating) 
.Cache () 


7.3 ”数据 探索 





fs://master: 9000/home/hadoop/data/u.data") 


数据 加 载 到 HDFS 后 ,我 们 便 可 对 数据 进行 探索 和 分 析 ， 对 用 户 数 据 的 探索 ， 大 家 可 参考 2.4.3 节 的 相关 内 容 。 用 户 对 电影 评级 的 数据 比较 简单 ， 这 里 我 们 简单 查看 一 下 导入 数据 抽样 及 统计 信息 。 


抽样 数据 


ratings.show (4) 























242 3.01881250949 
302 3.01891717742 
23177 1.01878887116 
4 2.0|1880606923 














用 户 ID、 电 影 ID、 评 级 数据 统计 信息 : 


ratings.describe ("user] 


mean 


min 








100000 
462.48475 
266.61442012750905 








由 此 可 知 ， 该 数据 集 共 有 100000 条 ， 评 级 最 低 为 1.0， 最 高 为 5.0， 平 均 3.5 左 右 。 





这 里 数据 


[d", "movie] 








425.53013 


[d", "rating") .Show () 


100000 
23:52986 
1.1256735991443214 











练 模型 


比较 简单 ， 无 须 做 数据 转换 和 清理 等 数据 预 处 理工 作 。 在 训练 模型 前 ， 我 们 需要 把 数据 划分 为 几 个 部 分 ， 
优化 时 将 采用 另 一 种 划分 方式 ， 然 后 ， 比 较 使 用 不 同 划分 方法 对 模型 性 能 或 泛 化 能 力 的 影响 。 


val Array (training, test) = 








val als = new ALS () 


.Sel 
. Sel 
.Sel 


MaxIter (10) 
Rank (10) 
RegParam (0 .01) 








. Sel 
.Sel 
. Sel 
.Sel 





Nonnegative (true) 
UserCol ("userId") 








ratings.randomSplit (Array (0.8, 0.2),seed=1234) 


|! 
4 4 





[temCo] 








("movie] 


Id ) 











ALS 参 数 说 明 : 


RatingCol ("rating") 


这 里 先 随 机 划分 成 两 部 分 ， 


其 中 80% 作 为 训练 集 ，20% 作 为 测试 集 。 后 续 我 们 在 性 能 


. numBlocks 是 用 于 并 行 化 计算 
.tank 是 模型 中 隐语 义 因子 的 个 数 〈 默 认为 10) ; 
. maxItet 是 迭代 的 次 数 〈 默 认为 10) ; 

.tfegPparam 是 ALS 的 正则 化 参数 〈 默 认为 1.0) ; 
“ implicitPrefs 该 参数 适用 显 性 反馈 ， 还 是 适用 隐 性 
.alpha 该 参数 决定 了 偏好 行为 强度 的 
nonnegative 对 最 小 
* UserCol、 


ItemCol、RatineCol 为 输入 字段 。 


7.5 ”组装 


1) 创建 流水 线 ， 把 数据 转换 、 模 型 





val pipeline = new Pipeline() 


2) 训练 模型 





val model = pipeline.fit (training) 








3) 作出 预测 : 









































val predictions = model .transform(test) 

4) 查看 预测 值 与 原来 的 值 : 

PEO eS show (5) 

userId|movielId|rating|timestamp|prediction 
222 148 2.0|881061164| 3.1357265 
330 148 4.01876544781| 3.9583592 
224 148 3.018881041541 3.9787998 
618 148 3.0|1891309670| 2.7060091 
896 148 2.0|1887160606| 2.8391676 

i ss a 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 




















7.6 ”评估 模型 


训练 等 任务 组 装 在 一 


的 分 块 个 数 ( 默 认为 10) ; 


反馈 (默认 是 false， 


基准 (默认 为 1.0) ; 


二 乘法 使 用 非 负 的 限制 〈 默 认为 false) ; 


.SetStages (Array (als)) 


条 流水 线 上 。 


即 用 显 性 


反馈 ) ; 


1) 预测 时 会 产生 NaN ， 即 NaN 表 示 不 推荐 (预测 时 产生 NaN 是 spark2.1 ALS 中 的 一 个 bug， 该 bug 在 2.2 版 本 中 将 修复 ) 。 





predictions.filter (predictions ("prediction") 


.isNaN) 








2) 删除 合 NaN 的 值 的 行 ，NaN 有 一 定 合 


val predictionsl= predictions.na.drop() 











evaluator = new RegressionEvaluator () 
.SetMetricName ("rmse") 

.SetLabelCol ("rating") 
.SetPredictionCol ("prediction") 


val rmse = evaluator.evaluate (predictions]1) 


val 























3) 运行 结果 为 : 


rmse: Double = 1.016902715345917 





7.7 ”模型 优化 


模型 训练 前 ， 对 数据 集 随 机 划分 
下 我 们 通过 一 个 实例 进行 说 明 。 


> 训练 集 和 测试 集 


因 预 测 值 比较 特殊 ， 故 这 里 我 们 选择 自 定义 模型 优化 方法 。 首 先 ， 我 们 采用 交叉 验证 方法 ， 把 数据 集 
最 后 利用 自 定 义 模型 评估 函数 ， 在 多 种 方案 中 ， 应 先 选择 一 种 最 优 方案 或 最 优 模型 


// 导 入 一 些 包 

import org.apache. 
import org.apache. 
import org.apache. 
import org.apache. 


spark.sqgl .Row 
1 .Dataset 
1 .DataFrame 











cr tt cet 


训练 模型 时 选择 了 


.Select ("userI 


理性 ,不 推荐 ,但 为 评估 指标 ， 可 以 先 过 


.recommendation. {ALS,ALSModel} 











// 将 样本 评分 表 分 成 3 个 部 分 ,分 别 用 于 训练 








(60%) 


、 校 验 


(20%) 和 测试 (20%) 





d", "movie] 


一 些 参 数值 ， 每 种 参数 只 选择 一 





滤 这 些 数 。 


值 。 这 


分 成 三 部 分 


[d", "rating", "prediction") 


.Count () 


数 的 组 合 是 


合 旺 


且 公 
XE 口 


7 即 训 | 练 集 、 验证 集 


理 或 最 优 的 ? 除了 随机 划分 数据 集 


、 测 试 集 ， 


pal 


是 否 还 有 更 好 的 划分 方法 ? 以 


对 每 种 参数 选择 两 种 或 两 种 以 上 ， 然 后 ， 对 模型 进行 训 | 








































































































































































































































































































































































































val splits = ratings.randomSplit (Array (0.6, 0.2,0.2),12) 
// 把 训练 样本 缓存 起 来 ,加 快运 算 速 度 
val training = splits (0) .cache () 
1 validation = splits(1) .toDF.cache() 
test = splits (1). toDF' . cache () 
/7 计算 各 集 居 合 忆 3 
val numTraining = training.count () 
val numValidation = validation.count () 
val numTest = test.count () 
// 训 练 不 同 参数 下 的 模型 ,并 在 校 验 集中 验证 ,获取 最 佳 参 数 下 的 模型 
val ranks = List(10, 20) 
val lambdas = List(0.01, 0.1) 
val numIters = List(5, 10) 
Var bestModel: Option[ALSModel] = None 
var bestValidationRmse = Double.MaxValue 
var bestRank = 0 
var bestLambda = 1.0 
Var bestNumIter = 1 
def computeRmse (model:ALSModel,data:DataFrame,n:Long) :Double = { 
val predictions = model .transform(data) 
val pl=predictions.na.drop() .rdd.map{ x =>((x 
math.sqrt (pl.map( x => (x. 1.toString.toDouble - x. 2.toString.toDouble) 
} 
for (rank <- ranks; lambda <- lambdas; numIter <- numIters) { 
val als = new ALS () 
setMaxIter (numIter) 
setRegParam (lambda) 
setRank (rank) 
.SetNonnegative (true) 
.SetUserCol ("userId") 
.SetItemCol ("movielId") 
.SetRatingCol ("rating") 
val model = als.fit (training) 
val validationRmse = computeRmse (model, validation, numValidation) 
printlin ("RMSE (validation) = " + validationRmse + " 
+ rank + ",lambda = " + lambda + ",and numlIter = " + numIter + ".") 
if (validationRmse < bestValidationRmse) { 
bestModel = Some (model) 
bestValidationRmse = validationRmse 
bestRank = rank 
bestLambda = lambda 
bestNumIiter = numlter 
} 
} 
// 运 行 结果 
RMSE (validation) = 1.0664516122491705 for the model trained with rank = 10, 
RMSE (validation) = 1.0773258157269512 for the model trained with rank = 10, 
RMSE (validation) = 0.9509095542582248 for the model trained with rank = 10, 
RMSE (validation) = 0.9390664107785451 for the model trained with rank = 10, 
RMSE (validation) = 1.1024492428290906 for the model trained with rank = 20, 
RMSE (validation) = 1.1242105743040174 for the model trained with rank = 20, 
RMSE (validation) = 0.9393089637028184 for the model trained with rank = 20, 
RMSE (validation) = 0.9383240505365207 for the model trained with rank = 20, 
// 用 最 佳 模型 预测 测试 集 的 评分 ,并 计算 和 实际 评分 之 间 的 均 方 根 误 差 (RMSE) 
val testRmse = computeRmse (bestModel.get, test, numTest) 
testRmse: Double = 0.9383240505365207 
// 比 优化 前 的 rmse: Double = 1.016902715345917 提 高 了 7. 6s 左 右 。 
// 打 印 最 优 模型 中 的 各 参数 值 
printlin("The best model was trained with Frank = " + bestRank + " and lambda 
+ ", and numIter = " + bestNumIter + ", and its RMSE on the test set is 
// 最 佳 模型 相关 参数 


The best model was trained 











with rank = 





7.8 小结 
本 章 
为 例 ， 进 一 


在 上 一 章 中 ， 我 们 通 


例 ， 进 一 步 说 明 如 何 使 用 Spark ML 中 特征 选 
分 类 、 回 归 和 聚 类 是 机 器 学 习 中 重要 的 几 个 


以 Spark ML 分 类 模型 为 例 ， 主 要 包括 以 下 内 容 : 


. 简单 介绍 几 种 分 类 模型 
" 加 载 数据 
“ 探索 加 载 后 的 数据 


` 预 处 理 数据 


. 把 各 种 任务 组 装 到 流水 线 上 


* 模型 调 优 
SS La 十 上 | CTA 
8.1 “分 类 模型 简介 


是 指 将 事物 分 成 不 同 的 类 别 ， 属 于 监督 


过 实例 介 et 尿 中 基于 协同 过 


学 习 中 的 一 种 形式 ， 





























大 

































































介绍 了 推荐 模型 的 一 般 方法 ，Spark 推 荐 模型 的 原理 和 算 
步 说 明 如 何 使 用 Spark ML 提供 的 特征 选取 、 特 征 转换 、 流 














法 等 


才 滤 的 推荐 模型 


寺 征 转换 、 流 水 线 、 模 型 


20 and lambda = 0.1, and numlI 





lam 


lam 
lam 








(0) ,x(1)),x(2))}.joinl(predictions.rdd.map{ x =>((x 
(x. 1.toString.toDouble - x. 2.toString.toDouble)) 


for the model trained with rank = " 











(0) ,x(1)),x(4))}) .Values 














bda = 0.01,and numIter = 5. 
bda = 0.01,and numIter = 10. 
bda = 0.1,and numIter = 5. 
bda = 0.1,and numIter = 10. 
bda = 0.01,and numIter = 5. 
bda = 0.01,and numIter = 10. 
bda = 0.1,and numIter = 5. 
bda = 0.1,and numIter = 10. 
"+ bestLambda 
+ testRmse + ".") 

ts RMSE on the test set is 0.9383240505365207. 


ter = 10, and i 











等 ， 然 后 通过 一 个 实例 具体 说 明了 实施 Spark 推 荐 模型 的 一 般 步 又、 
水 线 、 交 叉 验 证 等 消 数 或 方法 。 


第 8 章 ”构建 Spark ML 分 类 模型 


， 了 解 了 推荐 模型 的 原理 以 及 使 用 场景 、 使 用 流水 线 组 装 任务 、 使 用 自 定 义 函数 优化 模型 等 。 


选择 或 优化 等 方法 简化、 规范 化 、 流 程 化 整个 机 器 学 习 过 程 。 


通过 大 量 的 样 


分 支 ， 也 是 日 常数 据 处 理 与 分 析 中 最 常用 的 手段 。 这 几 类 





， 每 个 样本 有 多 个 属性 ， 属 性 可 以 是 连 


车 续 型 ， 


.reduce ( 1 


_) mn) 


= 


这 一 章 


算法 有 着 较 高 的 成 熟 度 ， 原 理 也 较 容易 理解 ， 且 有 着 不 错 的 效果 ， 深 受 数据 


也 可 以 是 离散 型 。 


使 用 自 定义 函数 优化 模型 等 内 容 。 下 一 章 将 以 Spark ML 的 分 类 模型 


我 们 将 就 Spark 中 的 分 类 模型 为 


分 析 师 们 的 喜爱 。 本 章 


其 中 每 一 个 属性 我 们 都 称 为 事 


物 的 类 别 属 性 ， 用 来 标识 该 样本 所 属 的 类 别 。 简 而 言 之 ， 分 类 就 是 通过 一 组 代表 物体 、 事 件 等 的 相关 属性 来 判断 其 类 别 。 


通常 会 分 为 两 种 ， 一 种 是 最 简单 的 二 分 类 问题 ， 即 通过 已 有 特征 属性 判断 事物 或 事件 的 类 别 ， 其 产生 的 结果 只 有 0 和 1， 即 要 么 属于 该 类 别 ， 要 么 不 属于 该 类 别 。 另 一 种 是 多 类 别 分 类 问题 ， 即 
通过 已 有 特征 属性 判断 事物 或 事件 的 类 别 ， 其 产生 的 结果 可 能 有 多 个 类 别 ， 比 如 5 个 类 别 可 以 用 0 ~ 4 来 标识 其 类 别 。 


分 类 模型 有 很 多 种 ， 较 为 常见 的 几 种 模型 分 别 为 : 线性 模型 、 决 策 树 模型 、 朴 素 贝 叶 斯 模型 、BP 神 经 网 络 模型 。 本 章 就 线性 模型 、 决 策 树 模型 以 及 朴素 贝 叶 斯 模型 的 使 用 进行 详细 介绍 。 
1) 线性 模型 : 模型 简单 ， 且 容易 扩展 到 较 大 的 数据 集 ; 

2) 决策 树 模型 : 具有 强大 的 非 线 性 技术 ， 不 要 求 样本 数据 标准 化 ， 易 扩展 到 多 分 类 问题 ， 在 很 多 情况 下 能 够 获得 不 错 的 性 能 ; 

3) 朴素 贝 叶 斯 : 模型 简单 、 易 训练 ， 并 且 具 有 高 效 和 并 行 的 优点 。 


值得 注意 的 是 ，Spark ML 目前 支持 的 分 类 算法 有 : 基于 线性 模型 、 决 策 树 和 朴素 贝 叶 斯 的 二 分 类 模型 ， 以 及 基于 决策 树 和 朴素 贝 叶 斯 的 多 类 别 分 类 模型 。 对 于 线性 模型 中 支持 向 量 机 (SVM) 的 模型 
目前 还 只 能 在 MLlib 使 用 ， 且 不 适用 于 流水 线 和 交叉 验证 的 方法 ， 这 里 将 不 作 探讨 。 


分 类 模型 在 日 常生 活 中 ， 有 着 很 多 的 实际 应 用 ， 以 下 是 一 些 常 见 例子 : 
1) 对 图 片 、 视 频 或 者 声音 的 分 类 ; 

2) 对 新 闻 、 网 页 或 者 其 他 内 容 标记 类 别 |; 

3) 发 现 垃圾 邮件 、 垃 圾 页 面 、 网 络 入 侵 和 其 他 恶意 行为 ; 
4) 银行 对 贷款 风险 的 评估 ， 预 测 是 否 会 拖欠 贷款 ; 

5) 预测 用 户 是 否 会 购买 某 个 产品 或 服务 ; 

6) 信用 卡 分 级 ， 将 信用 卡 申请 者 分 为 低 、 中 、 高 风险 ; 
7) 基于 运营 商 数 据 的 个 人 征 信 评 估 ; 

8) 预测 市 民 出 行 是 否 选 乘 公交 ; 

9) 预测 互联 网 用 户 对 在 线 广告 的 点 击 概率 ; 

10) 中 文句 子 类 别 精准 分 析 ; 

11) 国家 电网 客户 用 电 异 常 行为 分 析 ; 


12) 客户 流失 率 预 测 。 


8.1.1 线性 异型 


线性 模型 主要 通过 对 样本 的 预测 结果 (通常 称 为 目标 或 者 因 变量 ) 进行 建 模 ， 即 通过 样本 数据 进行 训练 得 到 线性 预测 函数 ， 从 而 应 用 该 函数 对 测试 数据 的 输入 变量 (特征 或 者 自 变量 ) 进行 结果 的 预 
测 。 


逻辑 回归 是 线性 分 类 模型 中 使 用 最 广泛 的 一 个 ， 它 是 一 个 概率 性 模型 ， 即 预测 的 结果 只 能 是 0 ~ 1。 逻 辑 回 归 其 实 只 是 在 线性 回归 的 基础 上 ， 套 用 了 一 个 逻辑 函数 (如 Sigmoid 函 数 ) 。 对 于 二 分 类 来 
说 ， 逻 辑 回 归 的 输出 等 价 于 模型 预测 某 个 数据 点 属于 正 类 的 概率 估计 。 


8.1.2 ”决策 树 异 型 


决策 树 模型 是 一 个 强大 的 非 概率 模型 ， 可 以 用 来 表示 复杂 的 非 线 性 模式 和 特征 的 相互 关系 。 决 策 树 是 一 个 树 状 结构 (可 以 是 二 叉 树 或 非 二 叉 树 ) ， 由 节点 和 有 向 边 组 成 。 节 点 通常 有 两 种 类 型 : 内 部 节 
点 和 叶子 节点 。 内 部 节点 表示 事物 的 一 个 特征 属性 ， 叶 子 节点 则 表示 一 个 类 。 每 个 非 叶 子 节点 表示 一 个 特征 属性 上 的 测试 ， 每 个 分 支 表 示 这 个 特征 属性 在 某 个 值 域 上 的 输出 ， 而 叶子 节点 存放 的 是 一 个 类 
别 。 

特征 选择 的 目标 使 得 分 类 后 的 数据 集 比 较 纯 ， 如 何 度量 纯度 ”可 以 通过 数据 集 划 分 前 后 的 信息 变化 来 确定 ， 或 信息 增益 来 确定 。 信 息 增益 (Info Gain) 最 大 的 特征 就 是 最 好 选择 ， 如 何 计算 信息 增益 ? 
集合 信息 的 度量 方式 称 为 (Entropy) 。 

假设 变量 X={x1，x2，http://www.hzcourse.comyresource/readBook? 
path=/openresources/teach ebook/uncompressed/17400/OEBPS/Text/..., x;, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17400/OEBPS/Text/...，xn}， 其 中 每 个 元 素 对 应 的 概率 (比例 ) 为 P={p1,，p2,，http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17400/OEBPS/Text/..., p;, http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17400/OEBPS/Text/...，pn}， 则 对 应 灼 计算 公式 : 5 2 oo 而 信息 增益 (Info-Gain) 指 的 就 是 精 的 减少 量 : IGain (S，A) =E (S) - 
E (A) 。 公 式 中 S 和 A 分 别 代表 数据 划分 前 后 的 数据 集 。 

决策 树 是 一 个 贪心 算法 递归 地 将 特征 空间 划分 为 两 个 部 分 ， 在 同一 个 叶子 节点 的 数据 最 后 会 拥有 同样 的 标签 。 每 次 划分 通过 贪心 算法 以 获得 最 大 信息 增益 为 目的 ， 从 可 选择 的 分 裂 方式 中 选择 最 佳 的 分 
裂 节点 。 节 点 不 纯度 由 节点 所 含 类 别 的 同 质 性 来 衡量 。 为 分 类 提供 两 种 不 纯度 衡量 (基尼 不 纯度 和 ) ， 为 回归 提供 一 种 不 纯度 衡量 (方差 ) 。 


决策 树 的 决策 过 程 是 从 根 节点 开始 ， 测 试 待 分 类 项 中 的 特征 属性 ， 并 按照 其 值 选择 输出 分 支 ， 直 到 到 达 叶 子 节点 ， 将 叶子 节点 存放 的 类 别 作为 决策 结果 。 我 们 以 图 8-1 用 户 是 否 购买 计算 机 为 例 ， 对 决策 
树 的 决策 过 程 进行 说 明 。 


age: 


youth Senlor 
middle aged 


credlt rating? 


no yeS falr excellent 


整个 过 程 : 首先 从 用 户 的 年 龄 开始 判断 ， 如 果 用 户 中 年 ， 那 么 就 可 能 会 购买 电脑 ;如果 是 年 轻 人 ， 进 行 下 一 步 判 断 ， 如 果 是 学 生 就 可 能 会 购买 ， 否 则 不 会 购买 。 如 果 是 年 长 者 ， 那 么 根据 信用 评分 来 进 
行 下 一 步 的 判断 : 如 果 是 一 般 的 ， 那 么 不 会 购买 ; 如 果 是 极 好 的 ， 那 么 就 可 能 购买 。 整 个 流程 从 根 节点 开始 不 断 向 下 做 判断 ， 呈 现 树 状 的 结构 。 关 于 根 节点 以 及 叶子 节点 的 选择 是 通过 信息 烛 行 计算 而 做 
出 选择 ， 这 些 Spark ML 已 经 帮 有 我 们 做 了 ， 我 们 只 要 关心 如 何 构建 模型 即 可 。 


图 8-1 决策 树 


除了 信息 增益 为 衡量 指标 外 ， 还 有 信息 增益 率 ， 基 尼 指数 (Gini) 等 。 其 中 信息 增益 (Info Gain) 用 于 ID3，Gini 用 于 CART， 信 息 增益 率 (Info Gain Ratio) 用 于 C4.5。 


8.1.3 ”朴素 贝 叶 斯 模型 


朴素 贝 叶 斯 分 类 是 一 个 简单 概率 模型 ， 通 过 计算 给 定 的 带 分 类 项 在 每 个 类 别 的 概率 来 进行 预测 ， 哪 个 概率 最 大 就 认为 待 分 类 项 属于 哪个 类 别 。 


关于 朴素 贝 叶 斯 详细 的 原理 ， 在 维基 百科 中 有 更 为 详细 的 数学 公式 解释 : http://en.wikipedia.org/wiki/Naive_Bayes _classifier。 


8.2 ”数据 加 载 


这 里 的 数据 选择 为 某 比赛 的 数据 集 ， 用 来 预测 推荐 的 一 些 页 面 是 短暂 (县 花 一 现 ) 还 是 长 久 (长 时 流行 ) 。 原 数据 集 为 train.tsv， 和 存放 路 径 在 /home/hadoop/data/train .tsv。 
先 使 用 shell 命 令 对 数据 进行 试探 性 的 查看 ， 并 做 一 些 简单 的 数据 处 理 。 
1) 查看 前 两 行 数据 : 


$ head -2 train.tsyv 




















































































































"url™" "urlid" "boilerplate" "alchemy category" "alchemy category score" 

"avglinksize" "commonlinkratio 1" "commonlinkratio 2" 

"commonlinkratio 3" "commonlinkratio 4" "compression ratio" 

"embed ratio" "framebased" "frameTagRatio" "hasDomainLink" 

WhyEml, ‘ratio "image ratio"™ "is news" 

"LengthyLinkDomainn "linkwordscore" "news front page" 
"non markup alphanum characters" "numberOfLinks"” "numwords in url" 

"parametrizedLinkRatio" "spelling errors ratio" "Jabel" 
"http://www.bloomberg.com/news/2010-12-23/ibm-predicts-holographic-calls-air-breathing-batteries-by-2015.html™" "4042" "“{""title"":""IBM Sees Holographic Calls Air Breathing Bat 
batteries"",""body"":""A sign stands outside the International Business Machines Corp IBM Almaden Research Center campus in San Jose Cali "8" 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach er 














数据 集中 的 第 1 行为 标题 (字段 名 ) 行 ， 表 8-1 是 数据 集 部 分 字段 说明 。 


十 
了 


Url 


urlid 


襄 明 
面 的 url 
而 ID 


面 的 文本 内 容 
面 有 所属 尖 列 


而 尖 列 


bollerplate 
alchemy category 


label 


紧 接着 的 22 列 为 各 种 数值 和 页 面 的 所 属 类 别 。 
最 后 一 列 为 标签 ， 用 来 标识 网 页 是 长 久 的 还 是 暂时 的 。 取 值 有 0 和 1，1 标 识 此 页 面 是 长 久 的 ，0 表 示 此 页 面 是 暂时 的 。 


2) 查看 文件 记录 总 数 : 


$ cat train.tsv |wc -1 
7396 





结果 显示 : 数据 集 一 共有 7396 条 数据 


3) 由 于 textFile 目 前 不 好 过 滤 标 题 行 数据 ， 为 便于 spark 操 作 数 据 ， 需 要 先 删 除 标题 。 





$ sed 1dq train.tsv >train noheader.tsv 





4) 将 数据 文件 上 传 到 hdfs: 














$ hdfs dfs -put train noheagder.tsv /data 





5) 查看 是 否 上 成 功 : 








hadoop@master:~/data$ hdfs dfs -ls /data 

17/05/24 00:46:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platformhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/ur 
Found 1 items 
= We 1 hadoop supergroup 21972457 2017-05-24 00:46 
/data/train noheader.tsv 



































6) 启动 Spark Shell: 





spark-shell --master spark://master:7077 --driver-memory 4G --total-executor-cores 4 





7) 通过 sc 对 象 的 textFile 方 法 ， 由 本 地 文件 数据 创建 RDD: 








scala> val rawData=sc.textFile("hdfs://master:9000/data/train noheader.tsv") rawData: org.apache.spark.rdd.RDD[String] = 


hdfs://master:9000/data/train noheader.tsv MapPartitionsRDD[1] at textFile at <console>:24 








8.3 ”数据 探索 


1) 查看 数据 前 两 行 : 





scala> rawData.take (2) 
res0: Array[String] = 
Array ("http://www.bloomberg.com/news/2010-12-23/ibm-predicts-holographic-calls-air-breathing-batteries-by-2015.html" "4042" fmmtitle"™™:""IBM Sees Holographic Calls Air Bre 


























由 上 面 可 以 看 到 ， 得 到 的 是 只 有 一 行 字符 串 数组 。 通 过 常 看 源 文件 ， 我 们 可 以 发 现 字段 间 由 制 表 符 (\t) 分 隔 。 由 于 后 续 的 算法 我 们 不 需要 时 间 戳 以 及 网 页 的 内 容 ， 所 以 这 里 先 将 其 过 滤 掉 。 下 面 我 们 
获取 每 个 属性 。 


2) 根据 以 上 分 析 ， 对 数据 进行 处 理 ， 并 生成 新 的 RDD: 


scala> val records = rawData.map (line => line.split("\t")) 
records: org.apache.spark.rdd.RDD[IArray[lString]] = MapPartitionsRDD[2] at map at <console>:26 








3) 查看 数据 结构 : 








scala> records.first 
res4: ArraylString] = 
Array ("http://www.bloomberg.com/news/2010-12-23/ibm-predicts-holographic-calls-air-breathing-batteries-by-2015.ntml™", "4042"™", "“{""title"":""IBM Sees Holographic Calls Air Breat 


























4) 查看 总 的 数据 行 数 : 


scala> records.count 
res5: Long = 7395 


5) 查看 每 一 行 数据 的 列 数 : 





scala> records.first.size 
res6: Int = 27 











6) 获取 第 一 行 的 某 个 值 : 





scala> records.first.take (2) 
res22: ArraylString] = 
Array ("http://www.bloomberg.com/news/2010-12-23/ibm-predicts-holographic-calls-air-breathing-batteries-by-2015.ntml", "4042") 











8.4 ”数据 了 预 处 理 


在 上 述 的 基础 上 ， 我 们 需要 对 数据 进行 进一步 的 数据 清洗 ， 具 体内 容 如 下 : 
“ 去 掉 引 号 。 

` 把 标签 列 〈 即 最 后 一 列 ) 转换 为 整数 。 

“ 把 第 4 列 中 的 ? 转换 为 0.0。 


: 使 用 LabeledPoint 方 法 给 数据 打 标 答 ， 即 : 把 标签 及 特征 转换 为 LabeledPoint 实 例 (一 种 分 类 算法 的 需求 格式 ) ， 同 时 把 特征 向 量 存储 到 ML 的 Vectot 中 。 


注意 ”LabeledPoint 格 式 数 据 如 : label index1: valuel index2 : value2http://www.hzcourse.com/resource/readBook?path=/openresoutces/teach_ebook/uncompressed/17400/OEBPS/Text/...， 可 通过 


MLUtils.loadLibSVMFile (sc，“path”) 直接 读 入 。 


1) 导入 LabeledPoint: 





scala> import org.apache.spark.ml.feature.LabeledPoint 











2) 导入 Vectors 矢 量 方法 : 





scala> import org.apache.spark.ml.linalg.Vectors 





3) 对 数据 进行 1~ 4 步 的 数据 清洗 工作 : 





val data = records.map { r => 
val trimmed = r.map( .replaceAll(™\"", "")) 
val label = trimmed(r.size - 1) .toInt 
val features = trimmed.slice(4, r.size - 1) .map(d => if (d == "?") 0.0 else d.toDouble) 


LabeledPoint (label, Vectors.dense (features)) 
































上 述 代码 可 通过 复制 粘贴 到 代码 行 中 ， 使 用 : paste， 粘 贴 过 后 按 下 Ctrl+D 即 可 。 


4) 考虑 到 使 用 朴素 贝 叶 斯 算法 时 ， 数 据 需 不 小 于 0， 故 需要 做 些 处 理 。 


val nbData = records.map { r => 
val trimmed = r.map( .replaceAll(™\"", "™")) 
val label = trimmed(r.size - 1) .toInt 
val features = trimmed.slice(4, r.size - 1) .map(d => if (d == "?") 0.0 else d.toDouble) .map(d => if (d < 0) 0.0 else d) 


LabeledPoint (label, Vectors.dense (features)) 
































5) 查看 清理 后 数据 集 的 前 两 行 数据 : 


scala> data.take (2) 

res0: Arraylorg.apache.spark.ml.feature.LabeledPoint] = 

Array ( (0.0, [0.789131,2.055555556,0.676470588,0.205882353,0.047058824, 

0.023529412,0.443783175,0.0,0.0,0.09077381,0.0,0.245831182,0.003883495,1.0,1.0,24.0, 

0.0,5424.0,170.0,8.0,0.152941176,0.079129575])，, 

(1.0, [0.574147,3.677966102,0.50802139,0.288770053,0.213903743,0.144385027,0.468648998,0.0,0.0,0.098707403,0.0,0.203489628,0.088652482,1.0,1.0,40.0,0.0,4973.0,187.0,9.0,0.18181E 














6) 通过 RDD 创 建 DataFrame: 








scala> val df = spark.createDataFrame (data) 
df: org.apache.spark.sql.DataFrame = [label: double, features: Vector] 














scala> val nbDF = spark.createDataFrame (nbData) 
nbDF: org.apache.spark.sql.DataFrame = [label: double, features: Vector] 











7) 查看 df 和 nbDF 的 数据: 





scala> df.show (10) // 查看 df 的 前 10 行 数据 


































































































label features 
0.0|1[0.789131,2.05555http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
1.0|[0.574147,3.67796http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
1.0|[0.996526,2.38288nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
1.0|[0.801248,1.54310http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.719157,2.67647http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,119.0,0.7454http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
1.0|1[0.22111,0.773809http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,1.883333333,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
1.0|1[0.0,0.471502591,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
.0| [0.0,2.41011236, 0http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
PT A 十 
only showing top 10 rows 
// 查看 nbDF 的 第 一 行 数据 ,或 者 使 用 nibDF .first 也 是 一 样 的 























scala> nbDF .head 
res21: ord.apache .Spark.sdq] .Row 





[0.05 10.789131,2.055555556; 0.676470588,;0.205882353;0.047058824,0.023529412;0.443783175,0.0;0.0,0.09077381;0.0;0. 

















8) 查看 df 和 nbDF 的 Schema 的 信息 和 数据 总 行 数 : 















































scala> df.printSchema 
root 
|-- label: double (nullable = true) 
|-- features: vector (nullable = true) 
scala> df.count 
res4: Long = 7395 
scala> nbDF'.printSchema 
root 
|-- label: double (nullable = true) 
|-- features: vector (nullable = true) 
scala> nbDF.count 





res24: Long = 7395 


9) 随机 地 将 数据 进行 划分 ，80% 用 于 训 








scala> val Array (trainingData, 








trainingData: org.apache.spark.sql.Da 
testData: org.apache.spark.sqgl.Datase 





= df.randomSplit (Array (0.8, 0.2),seed = 1] 
















































































练 集 ，20% 用 于 测试 集 : 
testData) 
tase 








scala> val Array (nbTrainingData, nbTestDa 


nbTrainingData: org.apache.spark.sqgql.Da 
nbTestData: org.apache.spark.sqgl.Datase 





10) 查看 训 


scala> 
res8: 


trainingData.count 
Long = 5912 








testData.count 
Long = 1483 


scala> 
res9: 





11) 由 于 后 续 使 用 网 格 参 数 和 交叉 验证 的 时 候 ， 需 要 多 次 使 用 到 | 训 


trainingData.cache 
: trainingData.type 











tData.cache 


tDa 


Les 
Les 














nbTrainingData.cache 
nbTrainingData.type 














ta.cache 
ta.type = 


tDa 
tDa 


nbTes 
nbTes 














[label: 








练 数据 和 测试 数据 的 总 行 数 : 


ta.type = MapPartitionsRDD[25] at 


[label: doub] 


ta) 





nbDF'. randomSp] 
taset [org.apache.spark.sql .Row] 
t [org.apache.spark.sqgl. 


t [org.apache.spark. sgl .Row] 








i 


练 集 和 测试 集 ， 





Row |] 


randomSplit at <console>:35 








double, 





features: Vector] 





12) 导入 逻辑 回归 分 类 器 、 决 策 树 模型 以 及 朴素 贝 叶 斯 模型 。 


scala> import 
Org. 





apache.spark.ml .classification. {Logistidadl 


Regression,] 


features: Vector] 





scal 





a> import org.apache.spark.ml.classi 











fica 











scala> import 





org.apache.spark.ml.classification.{DecisionTreeClassi 





13) 创建 贝 叶 斯 模型 ， 





scala> val nb = new Naiv 


tion. {Naivel 








Bayes, Naivel 








BayesMode1l} 


fier, DecisionTreeClassi 


t [org.apache.spark.sqgql.Row] =[label: doub] 
[label: double, 


t(Array (0.8, 0.2), 


MapPartitionsRDD[24] at randomSplit at <console>:35 


,OgisticRegressionModel} 








234] 














1) 








features: Vector] 




















seed = 1234 
[label: double, 


tures: Vector] 


L) 


tures: Vector] 











fea 








=[label: double, 





features: Vector] 


所 以 将 这 两 者 载 入 内 存 ， 可 大 大 提高 性 能 。 


ficationModel} 





设置 初始 参数 : 





Bayes () .S 
nbModel: org.apache.spark.ml.classi 




















14) 通过 朴素 贝 叶 斯 训 





练 模型 ， 





// 训 练 数 据 


scala> val nbModel = nb. 








fica 





对 数据 进行 预测 : 


fit (nbpTrainingData) 


nbModel: org.apache.spark.ml.classi tion.Naiv 


Bayes 


tLabelCol ("label") .setFeaturesCol (" 
fication.Naive 

















// 预测 数据 


scala> val nbPrediction 








nbPrediction: org.apache.spark.sqgl.DataFrame 
ttp://www.hzcourse.com/resource/read] 














Vector h 


scala> nbPrediction.show (10) 




































































showing top 10 rows 























BayesModel = Naiv 


nbModel .transform (nbTestData) 
[label: double, 
Book?path=/openresources/teach ebook/uncompressed/17400/09! 








features: 





features") 
nb 050ft7aa0718e 











BayesModel (uid=nb 63013179felf) 














a 





工 





































































































Jabel features rawPrediction probability|prediction 
0.01[0.0,0.0,0.0,0.0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,0.0,0.0,0.0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/l1 
0.0|1[0.0,0.0,0.0,0.0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.01[0.0,0.253731343,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.01[0.0,0.5,0.0,0.0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.01[0.0,0.5,0.0,0.0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,0.563636364, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,0.590163934,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,0.677966102,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
0.0|1[0.0,0.7,0.111111ihttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 
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15) 朴素 贝 叶 斯 准确 性 统计 : 





// tl 存放 预测 值 的 数组 ,t2 存 放 测 试 数据 标签 值 ,t3 存 放 测 试 数据 总 行 数 
scala>val (tl, t2, t3) = (nbPrediction.select ("prediction") .collect, 
nbTestData.select ("label") .collect,nbTestData.count.toInt) 


// t4 为 累加 器 


scala> var t4 = 0 
tA4: TAt = 属 


// 遍历 循环 ,统计 正确 预测 的 次 数 
scala> for(i <- 0 to t3-1) {if(t1(i)==t2(i)) t4+=1} 


// 查看 预测 正确 的 个 数 


scala> 七 4 
res63: Int = 840 


// 计算 准确 率 
scala> val nbAccuracy = 1.0*t4/t3 
nbAccuracy: Double = 0.5664194200944033 
































可 以 看 到 ， 朴 素 贝 叶 斯 的 准确 率 为 56.6419%。 


8.5 ”组 装 


1) 导入 特征 索引 





类 : 














scala>import org.apache.spark.ml.feature.{ VectorIindexer, VectorIndexerModel} 





2) 建立 特征 索引 : 








scala> val featureIndexer = new 

VectorInaexer () .setIinputCol ("features") .setOutputCol ("indexedFeatures") .fit (df) 
featureIndexer: org.apache.spark.ml.feature.VectorIindexerModel = 

vecIdx b73cal435eea 



























































3) 创建 逻辑 回归 模型 : 


scala> val lr = new 

LogisticRegression() .setLabelCol ("label") .setFeaturesCol ("indexedFeatures") .setMaxIter (10) .setRegParam(0.001) 
lrModel: org.apache.spark.ml.classification.LogisticRegression = 

logreg 9bec21f2262f 



































4) 创建 决策 树 模 型 : 


scala> val dt = new 

DecisionTreeClassifier() .setLabelCol ("label") .setFeaturesCol ("indexedFeatures") .setImpurity ("entropy") .setMaxBins (100) .setMaxDepth (5) .SetMinInfocain (0.01) 
dtModel: org.apache.spark.ml.classification.DecisionTreeClassifier = 

dtc 8a3a01185f6b 





















































部 分 参数 涪 明 如 下 : 
“setImputity (“entropy”) : 指定 信息 粒 ， 这 里 为 enttopy。 


.setMaxBins (100) : 离散 化 “连续 特征 ”的 最 大 划分 数 ， 这 里 设置 为 100。 


. setMaxDepth (5) : 树 的 最 大 深度 ， 这 里 为 5。 





setMinInfoGain (0.01) : 一 个 节点 分 裂 的 最 小 信息 增益 ， 值 为 [0 ，1]。 


5) 导入 网 格 参数 和 交叉 验证 : 








scala> import org.apache.spark.ml.tuning.{ ParamGridBuilder, CrossValidator } 











6) 导入 流水 线 : 





import org.apache.spark.ml.{Pipeline,PipelineModel} 





7) 导入 评估 器 : 














import org.apache.spark.ml .evaluation.BinaryClassificationEvaluator 





8) 配置 两 条 流水 线 : 一 条 是 逻辑 回归 的 流水 线 ， 包 含 两 个 stages (featurelndexer 和 Ir) ; 一 条 是 决策 树 回归 的 流水 线 ， 包 含 两 个 stages (featurelndexer 和 dt) 。 











scala> val lrPipeline = new Pipeline() .setStages (Array (featureIndexer,1r)) 
lrPipeline: org.apache.spark.ml.Pipeline = pipeline 64c542dff42e 
scala> val dtPipeline = new Pipeline() .setStages (Array (featureIndexer, dt)) 
dtPipeline: org.apache.spark.ml.Pipeline = pipeline b9eq2ccc2108 



















































































8.6 模型 优化 


1) 分 别 配置 网 格 参数 ， 使 用 ParamGridBuilder 构 造 一 个 parameter grid : 


scala> :paste 


val lrParamGrid = new ParamGrid 





Builder () 














120,30)) 





.addGrid(lr.regParam,Array (0.1,0.3,0.5)) 
.addGrid(lr.maxIter, Array(10 
.build() 


scala> :paste 


val dtParamGrid = new ParamGrid 





Builder () 





.addGrid (dt .maxDepth, Array(3,5,7)) 


.build() 


2) 分 别 实例 化 交叉 验证 模型 : 


val evaluator 


scala> :paste 





val lrCV = new CrossVal 


nNew 











BinaryClassificationEvaluator 





idator () 








.SetEstima 


tor (lrPipel 





ine) 





. Set 


Evaluator (evaluator) 














.SetEstima 
.SetNumFolds (2) 








lrCV: org.apache.spark.ml. 


scala> :paste 


val dtCV = new CrossVal 


tuning.CrossValidator 


torParamMaps (lrParamGrid) 





idator () 











.SetEstima 


tor (dtPipel] 


ine) 





. Set 


Evaluator (evaluator) 














.SetEstima 
.SetNumFolds (2) 








dtCV: org.apache.spark.ml .1 


torParamMaps (di 





tParamGrid) 





tuning.CrossValidator 


3) 通过 交叉 验证 模型 ， 获 取 最 优 参数 集 ， 并 测试 模型 




















() 





cv b25c7e0flbe7 


cV 5176e642601d 









































































































































































































































scala>val lrCvModel = 1rCV.fit (trainingData) 
lrCvModel: org.apache.spark.ml .tuning.CrossValidatorModel = cv b25c7e0flbe7 
scala> val dtCvModel = dtCV.fit (trainingData) 
dtCvModel: org.apache.spark.ml.tuning.CrossValidatorModel = cv 5176e642601d 
scala> val lrPrediction = lrCvModel .transform(testData) 
lrPrediction: org.apache.spark.sql.DataFrame = [label: double, features: vector ht 
scala> val dtPrediction = dtCvModel .transform(testData) 
dtPrediction: org.apache.spark.sql.DataFrame = [label: double, features: vector ht 
4) 查看 数据 : 
scala> lrPrediction.select ("label", "prediction") .Show (10) 
label |prediction 
0.0 G0 
0.0 0.0 
0.0 0.0 
Os0 0 
0.0 1 0 
0.0 2 
0.0 Ee 
0.0 a 
0.0 0.0 
0.0 0.0 
only showing top 10 rows 
scala> dtPrediction.select ("label", "prediction") .Show (10) 
label |prediction 
0.0 0.0 
0.0 O20 
0.0 0.0 
0.0 G0 
0.0 G0 
0.0 0.0 
0.0 0 
0.0 小 
让 机 :0 
0.0 930 
only showing top 10 rows 
5) 查看 逻辑 回归 匹配 模型 的 参数 : 
lrBestModel: org.apache.spark.mL.PipelineMoqel = pipeline 64c542dff42 
scala> val lrModel = lrBestModel.stages (1) .asInstanceOf [LogisticRegressionModel|] 
lrModel: org.apache.spark.ml.classification.LogisticRegressionModel = logreg 100994a23a48 























scala> lrModel .de 
res20: Double = 0 
scala> lrModel .ge 
res21: Int = 20 








tMaxI 











tRegParam 
5 





ter 


6) 查看 决策 树 匹 配 模 型 的 参数 : 


a> val dt] 
tModel: 


scal 
Bes 




















la> val di 


Bes 




















BestModel = dtCvModel .bestModel .as] 
org.apache.spark.ml .PipelineModel] = pipeline b9eq2ccc2108 


tModel = 
tModel .stages (1) .as] 





[nstanceo 








[nstanceOf [PipelineModel] 








F [DecisionTreeClassi 





ficationModel] 











tModel: org.apache.spark.ml.classi 


scala> dtModel .getMaxDepth 


res24: Int = 











scala> di 
Int 








22 





7) 统计 逻辑 回归 的 








下 


tModel .numFeatures 


预测 正确 率 : 

















// 七 1r 为 逻辑 


A 大 志 














归 预 测 值 的 数组 ， 
label 为 测试 集 的 标签 值 的 数组 



































scala> val 人 (七 LT， 





tdi tt Labdel 








(lrPrediction 





, t count) 
.Select ("prediction") .collect, 


fication.DecisionTreeClassi 











_dt 为 决策 树 预测 值 的 数组 


dtPrediction.select 








("prediction") .collect,testData.select ("label") .collect, testData.count .to 











// c_lr 为 统计 逻辑 


五 














归 预 测 1 


E 确 个 数 的 累加 器 











//c_dt 为 统计 决策 树 预测 正确 个 数 的 累加 器 








scala> Var Array(C lr,c dt) = Array(0,0) 


t4: Int = 0 








ficationModel = DecisionTreeClassi 


tp://www.hzcourse.com/resource/read] 


tp://www.hzcourse.com/resource/read] 














Book?pa 


Book?pa 








th=/openresources/t 


th=/openresources/t 





ach ebook/uncompressed/1 

















nt) 


ficationModel (uigd=dtc lb101 


fd9474309) 


O 〇 





f depth 4 with 17 nodes 


ach ebook/uncompressed/1 
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工 
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100/0OR] 


工 








// 过 历 循环 ,统计 逻辑 回归 正确 预测 的 次 数 


scala> for(i <- 0 to t count-1) {if(t lr(i)==t label (i)) c lr+=1} 






































scala> c 1r 


resD: 


Int = 899 





// 统计 逻辑 回 0 


scala> 1.0*c lr/t c 


res6: 

















Double = 0. ed edie 





// 遍 历 循 环 , 统计 逻辑 回归 正确 预测 的 次 数 


scala> for(I <- 0 to t count-1) {if(t dt(i)==t label(i)) c gdt+=1} 
































scala> c dt 


res8: 


Int = 927 





// 统计 决策 树 正 确 率 
scala> 1.0*c dt /七 count 


res9: 





Double = 0.6250842886041807 


可 以 看 到 ， 我 们 通过 区 叉 验证 得 出 最 优 参数 ， 从 而 获得 最 佳 模型 ， 将 这 个 过 程 使 用 流水 线 连 接 起 来 ， 方 便 了 我 们 的 工作 。 关 于 模型 的 优化 ， 其 实 我 们 还 有 很 多 工作 要 做 ， 后 面 第 11 章 也 给 出 了 一 定 的 优 


化 思路 和 方法 。 
8.7 人 小结 


本 章 就 spark ML 中 的 分 类 模型 进行 了 详细 介绍 ， 包 括 逻 辑 回 归 、 决 策 树 、 朴 素 贝 叶 斯 模型 的 原理 ， 同 时 介绍 了 分 类 模型 的 一 些 使 用 场景 。 通 过 流水 线 、 网 格 参数 以 及 交叉 验证 的 方式 ， 将 整个 机 器 学 习 
过 程 规范 化 、 标 准 化 、 流 程 化 。 


第 9 章 ”构建 Spark ML 回归 模型 


回归 模型 属于 监督 式 学 习 ， 每 个 个 体 都 有 一 个 与 之 相关 联 的 实数 标签 ， 并 且 我 们 希望 在 给 出 用 于 表示 这 些 实体 的 数值 特征 后 ， 所 预测 出 的 标签 值 可 以 尽 可 能 接近 实际 值 。 


回归 


算法 是 试图 采用 对 误差 的 衡量 来 探索 变量 之 间 关 系 的 一 类 算法 。 回 归 算 法 是 统计 机 器 学 习 的 利器 。 在 机 器 学 习 领 域 ， 人 们 说 起 回归 ， 有 时 候 是 指 一 类 问题 ， 有 时 候 是 指 一 类 算法 ， 这 一 点 常常 会 使 


初学 者 感到 困惑 。 常 见 的 回归 算法 包括 : 普通 最 小 二 乘法 (Ordinary Least Square，OLS) ， 它 使 用 损失 函数 是 平方 损失 函数 (简单 的 预测 就 是 y= wTx， 标 准 的 最 小 二 乘 回归 不 使 用 正则 化 ， 这 就 意 
味 着 数据 中 异常 数据 点 非常 敏感 ， 因 此 ， 在 实际 应 用 中 经 常 使 用 一 定 程度 的 正则 化 〈 目 的 避免 过 拟 合 、 提 供 泛 化 能 力 ) 。 线 性 回归 在 应 用 L2 正 则 化 时 通常 称 为 岭 回归 (Ridge Regression) ， 应 用 L1 正 则 化 
时 称 为 Lasso 回 归 。L1、L2 正 则 化 实际 上 就 是 在 原来 损失 函数 基础 上 添加 一 个 约束 ， 限 制 w 的 大 小 ， 实 际 为 了 降低 损失 函数 对 X 的 敏感 程度 。 


nmin 让 ,st <e (Lasso 加 昌 ) 


min XX, | ,St <0 (Ridge 回归 ) 


正则 化 方法 是 其 他 算法 ( 通 归 算 法 ) 的 延伸 ， 其 核心 目的 是 为 了 避免 过 拟 合 (overfiting) 。 正 则 化 方法 通常 对 简单 模型 予以 奖励 而 对 复杂 算法 予以 惩罚 。 常 见 的 算法 包括 : Ridge 
Regression、Least Absolute i and Selection Operator (LASSO) 以 及 弹性 网 络 (Elastic Net) 。 通 过 正则 化 方法 有 利于 避免 过 拟 合 情 况 。 下 图 为 一 份 根据 房屋 面积 预测 销售 价 的 示意 图 ， 从 图 
9-1 中 可 以 看 出 ， 左 侧 图 为 从 拟 合 ， 右 侧 图 存在 过 拟 合 ， 中 间 这 个 图 的 泛 化 能 力 较 好 。 


Price 
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图 9-1 模型 泛 化 能 力 


本 章 主要 介绍 Spark ML 中 的 回归 模型 ， 以 回归 分 析 中 常用 决策 树 回归 、 线 性 回归 为 例 ， 对 共享 单车 租赁 的 情况 进行 预测 ， 其 中 介绍 了 一 些 特征 转换 、 特 征 选 择 、 交 叉 验证 等 方法 的 具体 使 用 ， 主 要 内 容 


包括 : 
" 回归 模型 简介 ; 
. 把 数据 加 载 到 HDFS ，Spatk 读 取 HDFS 中 的 数据 ; 
. 探索 特征 及 其 分 布 信息 ; 
` 预 处 理 数据 ; 
“ 把 Pipeline 的 多 个 Stage 组 装 到 流水 线 上 ; 


* 模型 优化 。 


9.1 回归 模型 简介 


ML 目前 支持 回归 模型 有 : 
Lineat tegression (线性 回归 ) 
Generalized lineat regression (广义 线性 回归 ) 
* Decision tree regression (决策 树 的 回归 ) 
Random forest tegtession (随机 森林 回归 ) 
* Gradient-boosted tree regression (梯度 提高 树 回归 ) 
* Survival tegression (生存 回归 ) 


“ Isotonic regtession ( 保 序 回归 ) 


9.2 ”数据 加 载 


本 章 选 择 共 享 单车 的 数据 集 ， 这 个 数据 集 记录 了 共享 自行 车 系统 每 小 时 自行 车 的 出 租 次 数 。 另 外 还 包括 日 期 、 时 间 、 天 气 、 季 节 和 节假日 等 相关 信息 (数据 集 下 载 地 
址 : http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset) ， 其 业务 与 我 们 平时 租用 摩 拜 单车 类 似 。 表 9-1 为 数据 集 的 特征 及 属性 。 


表 9-1 共享 单车 数据 属性 


序号 


4 


mm lim | 
raw Hm | 
i 


Lem | 
2 体感 湿度 | 
3 池 度 | 
4 | wideed | RE 
1 临时 用 户 租车 量 i 
16 证 册 用 户 租车 量 i 


日 标 变量 ， 每 小 时 的 自行 车 租用 量 ， 等 
17 cnt 





于 casual+registered 


查看 数据 大 致 情况 : 





#### 查 看 文件 前 3 行 数据 

$ head -3 hour.csv 

instant, dteday, season, yr, mth,hr,holiday,weekday,workingday,weathersit, temp,atemp, hum,windspeed, casual, registered, cnt 
172011=01=01;1,, 0 1y O70;6r07 L700.24;0.2879,0.81;03;13;716 

272011=01=01 L011;0,60, L022,0.2727 08.,0.8,32740 
### 查 看 文件 记录 总 数 

$ WC -1 hour.csyv 

17380 hour.csv 

### 查 看 文件 列 数 

cat hour.csv | head -1 | awk -EF ',' '{print NF}'" 

7 



























































从 数据 集 前 3 行 的 数据 可 以 看 出 ， 第 一 行为 标题 ， 其 他 为 租赁 数据 ， 共 有 17 个 字段 和 17380 条 记录 。 


把 数据 文件 hour.csv 复 制 到 HDFS 上 。 





$ hadoop fs -put hour.csv /home/hadoop/data 





以 独立 模式 启动 Spark， 然 后 读 取 数据 。 


$ spark-shell --master spark://master:7077 --driver-memory 1G --total-executor-cores 4 








导入 需要 使 用 的 类 。 





























































































































import org.apache .spark.sdql .SparkSession 

import org.apache.spark.sql.Row 

import org.apache.spark.sql.DataFrame 

import org.apache.spark.sql.Dataset 

import org.apache.spark.ml.Pipeline 

import org.apache.spark.ml .evaluation.RegressionEvaluator 

import org.apache.spark.ml.linalg.Vectors 

import org.apache.spark.ml.feature.{IndexToString, StringIndexer, VectorIndexer,VectorAssembler} 
import org.apache.spark.ml.feature. {OneHotEncoder, StringIndexer} 

import org.apache.spark.ml.regression.DecisionTreeRegressionModel 

import org.apache.spark.ml.regression.DecisionTreeRegressor 

import org.apache.spark.ml.regression.LinearRegression 

import org.apache.spark.ml.regression. {RandomForestRegressionModel, RandomForestRegressor} 
import org.apache.spark.ml .evaluation.MulticlassClassificationEvaluator 

import org.apache.spark.sql.types. 

import org.apache.spark.sql.functions. 





读 取 数据 ， 第 一 行为 列 名 。 





val rawdata = spark.read.format ("csv") .option ("header", true) .load("hdfs://master:9000/home/hadoop/data/hour.csv") 








查看 前 4 行 样本 数据 。 





rawdata. show (4) 















































十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 
|instant | dteday|season| yrlmnth| hrlholiday|lweekday|lworkingday|weathersit|temp| atemp| humlwindspeed|casual|registered|cnt| 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 二 + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 十 
| 112011=01=01] 1| | 1| 0| 01 6| 01 110.2410.287910.81| 01 3 13| 16| 
| 2|12011=01=01 | | 0| 1| 1| 01 6| 01 110.2210.27271 0.8| 01 8| 32| 40| 
| 3120L1=01=011] | 0| | 学 | 01 6| 01 110:22|0.2727| 0.8| 0| S| 27| 32| 
| 4|2011-01-01| | 0| | 3| 01 6| 01 110.2410.287910.75| 01 3| 10| 13| 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 





Spark 读 取 数 据 后 ， 我 们 就 可 以 对 数据 进行 探索 和 分 析 ， 首 先 查 看 前 4 行 样本 数据 : 





rawdata. show (4) 















































十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 二 + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 十 一 一 -十 
|instant | dteday|season| yrlmnth| hrlholiday|lweekday|lworkingday|weathersit|temp| atemp| humlwindspeed|casual|registered|cnt| 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 十 
| 112011=01=01| 1| 0| 1| 0| 01 6| 01 110.2410.287910.81| 01 3| 13| 16| 
| 212011-01-011 | 01 了 这] 01 6| 01 L1022|0.2727| O08| 01 8| 32| 40| 
| 3|2011=01=01| | 避 | | 之 | 01 6| 01 T0220027271 0,8 01 5| 27| 32| 
| 4|2011-01-01| | 0| 1 31 01 6| 01 110.2410.287910.75| 01 3| 10| 13| 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 一 一 二 + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 二 一 一 一 十 





查看 rawdata 的 数据 结构 。 





rawdata .printSchema 
















































































root 
-- instant: string (nullable = true) 
-- dteday: string (nullable = true) 
-- season: String (nullable = true) 
-- yr: string (nullable = true) 
-- mth: string (nullable = true) 
-- hr: string (nullable = true) 
-- holiday: string (nullable = true) 
-- weekday: string (nullable = true) 
-- workingday: string (nullable = true) 
-- weathersit: string (nullable = true) 
-- temp: string (nullable = true) 

















-- atemp: string (nullable = 
-- hum: string (nullable = t 

-- windspeed: string (nullable = true) 
-- casual: string (nullable = true) 

-- registered: string (nullable = true) 
-- cnt: string (nullable = true) 


























目前 这 些 数据 的 字段 都 是 字符 型 ， 后 续 需 要 转换 为 数值 型 。 


查看 主要 字段 的 统计 信息 。 


rawdata.describe ("dteday", "holiday", "weekday", "temp") .Show () 


















































十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
summary dteday holiday weekday temp 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 干 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 

count 17379 17379 T7379 17379 
mean null|0.028770355026181024|3.003682605443351| 0.4969871684216586 
stdgdev null 0.167165276384371712.00577145611098610.19255612124972202 
min|2011-01-01 0 0 0.02 
max|2012-12-3] 1 6 下 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 于 二 一 一 一 二 一 一 一 一 一 一 一 二 一 一 三 一 本 二 一 二 一 一 二 一 一 一 一 二 一 一 二 一 = 一 = 三 十 


其 中 有 很 多 字段 是 类 型 ， 如 果 使 用 回归 算法 时 ， 需 要 通过 OneHotEncoder 把 数据 转换 为 二 元 向 量 ， 


通过 pyspark 可 以 画 出 主要 特征 的 重要 程度 。 根 据 图 9-2 提 供 的 信息 ， 可 知 ， 特 征 casual、 


ID (instant) 与 日 期 (dteday) 也 对 标识 影响 不 大 或 无 影响 ， 可 以 过 滤 掉 这 4 个 特征 ( 即 : 


对 一 些 字段 或 特征 进行 规范 化 。 


registered 的 贡献 比较 低 ， 实 际 上 cnt= (casual+registered) ， 故 可 考虑 不 使 用 这 两 个 特征 ， 另 外 记录 
instant、dteday、casual、registered) ， 最 后 剩 下 1 个 标 特征 ，14 个 预测 特征 。 


feature Importance 
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通过 pyspark 可 以 画 出 其 中 一 些 特征 的 分 布 情况 : 


import pandas as pd 
import seaborn as sns 
import matplotlib.pyplot as pilt 








df=pd.read csv('/home/hadoop/data/bike/hour.csv',header=0) 
sns.set (style='whitegrid',context='notebook') 
cols=['season', 'yr', 'temp', 'atemp', 'hum', 'windspeed', 'cnt'] 
sns.pairplot (df [cols],size=2.5) 

plt.show () 








使 用 回归 分 析 ， 人 们 往往 会 假设 连续 性 特征 服从 正 态 分 布 ， 从 图 9-3 的 图 形 可 知 ，'temp'、 
正 态 分 布 ， 这 个 特征 是 标签 ， 我们 先 不 对 其 标准 化 训练 模型 ， 然 后 在 模型 优化 时 ， 对 该 特征 进 4 


workingday 


'atemp'、 


temp 


S 
| 


weathersit 
atemp 
casual 

registered 


windspeed 


图 9-2 ”各 特征 的 重要 性 


hum'、'windspeed 等 4 个 特征 基本 满足 正 态 分 布 ， 故 使 用 回归 分 析 时 ， 已 满足 要 求 ， 但 cnt 不 符合 
了 转换 ， 使 其 接近 正 态 分 布 ， 最 后 比较 模型 性 能 的 变化 。 
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图 9-3 ”特征 间 的 关系 图 


9.4 数据 预 处 理 
通过 数据 探索 ， 我 们 发 现 数据 的 具体 情况 ， 为 数据 的 预 处 理 提供 重要 依据 ， 当 然 ， 是 否 处 理 或 如 何 处 理 ， 还 需 考虑 具体 使 用 的 算法 或 模型 ， 这 里 我 们 将 分 别 采 用 决策 树 回归 、 线 性 回归 两 种 方法 ， 然 
后 ， 比 较 两 种 方法 的 性 能 。 在 使 用 决策 树 回 归 时 ， 除 了 做 些 特征 选择 外 ， 其 他 特征 转换 将 不 考虑 ， 但 使 用 线性 回归 时 需要 考虑 ， 否 则 将 影响 模型 的 性 能 。 


先 使 用 决策 树 回归 来 训练 模型 。 


9.4.1 特征 选择 
首先 把 字符 型 的 特征 转换 为 数值 类 型 ， 并 过 滤 instant、dteday、casual、registered 4 个 无 关 或 见 余 特 征 。cnt 特 征 作为 标志 。 


val datal= rawdata.select( 
rawdata ("season") .cast ("Double"), 
rawdata ("yr") .cast ("Double"), 
rawdata ("mnth") .cast ("Double"™), 














rawdata ("hr") .cast ("Double"), 

rawdata ("holiday") .cast ("Double"), 
rawdata ("weekday") .cast ("Double"™"), 
rawdata ("workingday") .cast ("Double"), 
rawdata ("weathersit") .cast ("Double"), 
rawdata ("temp") .cast ("Double"), 
rawdat "atemp") .cast ("Double"), 





rawdat "windspeed") .cast ("Double"), 
rawdat "cnt") .cast ("Double") .alias ("label")) 





tal 
tal 
tal 
rawdata ("hum") .cast ("Double"™), 
tal 
tal 














生成 一 个 存放 以 上 预测 特征 的 特征 向 量 : 








val featuresArray 





=Array ("season"™, "yr", "mth", "hr", "holiday", "weekday", "workingday", "weathersit", "temp","atemp", "hum", "windspeed") 
把 原 数据 组 合成 特征 向 量 features: 


val assembler = new 
VectorAssemoler () .setIinputCols (featuresArray) 




















.SetOutputCol ("features") 


9.4.2 ”特征 转换 


， 有 些 值 是 连续 型 ， 如 气温 、 湿 度 等 特征 
寺 征 作为 类 别 特征 ， 大 于 24 的 视 为 连续 性 


这 些 特征 大 部 分 是 分 类 特征 ， 使 用 决策 树 回归 时 ， 技 术 上 可 以 通 


这 里 把 不 同 值 小 于 或 等 于 24 的 特 
行 索引 化 或 数值 化 。 


使 用 决策 树 回 归 算 法 前 ， 我 们 对 类 别 特 征 进 








val featureIndexer = mew 
VectorIndexer () .setInputCol (" 























features") .setOutputCol ("indexedFeatures"). 


如 果 使 用 线性 回归 算法 ， 我 们 需要 对 类 别 特征 使 用 OneHotEncoder (其 具体 使 用 可 参考 第 4 章 ) ， 


对 前 8 个 类 别 字段 或 特征 转换 为 二 元 向 量 。 
































































































































val data2= new OneHotEncoder() .setIinputCol ("season") .setOutputCol ("seasonVec") 
val data3= new OneHotEncoder() .setInputCol ("yr") .setOutputCol ("yrVec") 

val data4= new OneHotEncoder() .setIinputCol ("mth") .setOutputCol ("mnthVec") 

val data= new OneHotEncoder() .setIinputCol ("hr") .setOutputCol ("hrVec") 

val data6= new OneHotEncoder() .setInputCol ("holiday") .setOutputCol ("holidayVec") 
val data7/= new OneHotEncoder() .setIinputCol ("weekday") .setOutputCol ("weekdayVec") 
val data8= new 

OneHotEncoder () .setInputCol ("workingday") .setOutputCol ("workingdayVec") 

val data9= new 

OneHotEncoder () .setInputCol ("weathersit") .setOutputCol ("weathersitVec") 


因 OneHotEncoder 不 是 Estimator， 这 里 我 们 对 采用 回归 算法 的 数据 另外 进 





val pipeline en = new 
Pipeline() .setStages (Array (data2, data3,data4, data5, data6, data7,data8, data9)) 
val data lr = pipeline en.fit(datal) .transform(datal) 




















把 原来 的 4 个 及 转换 后 的 8 个 二 元 特征 向 量 ， 拼 接 成 一 个 feature 向 量 。 


val assembler lr = new 








寺 征 ， 并 对 分 类 特征 索引 化 或 数值 化 。 


setMaxCategories (24) 


甬 过 
ly 


行 处 理 ， 先 建立 一 个 流水 线 ， 把 以 上 转换 组 装 到 这 


寺 给 定 类 别 个 数 的 最 大 值 (如 24) ， 


这 个 流水 线 上 。 


自动 识 另 


把 它们 转换 为 二 元 向 量 (或 one-Hot 编 码 ) 。 


哪些 种 








VectorAssembler () .setIinputCols (Array ("seasonVec", "yrVec", "mnthVec", "hrVec", 


9.5 组 装 


1) 将 data1 数 据 分 为 训练 和 测试 集 (30% 进 行 测试 ， 种 子 设 为 12) : 


// 对 datal 数 据 集 进行 随机 划分 ,这 份 数 据 用 于 决策 模型 


val Array (trainingData, testData) = datal.randomSplit (Array (0.7, 0.3),12) 


// 对 data2 数 据 集 进行 随机 划分 ,这 份 数据 用 于 回归 模型 
val Array (trainingData lr, testData Jr) = data lr.randomSplit (Array(0.7, 0.3),12) 












































利用 决策 树 回归 模型 训练 可 能 要 用 到 的 参数 : 
* featuresCol: 特征 列 名 ， 默 认 值 为 featutes ; 


.labelCol: 标签 列 名 ， 默 认为 label; 


“ ptedictionCol: 预测 结果 列 名 ， 默 认为 ptediction ; 

. maxDepth: 树 的 最 大 深度 ， 默 认 值 为 5， 

. maxBins: 连续 特征 离散 化 的 最 大 数量 ， 以 及 选择 每 个 节点 分 裂 特 征 的 方式 ， 黑 认 值 为 32; 
. minInstancesPetNode: 分 裂 后 自 节 点 最 少 包含 的 实例 数量 ， 默 认 值 为 1 

. minInfoGain: 分 裂 节 点 时 所 需 最 小 信息 增益 ， 默 认 值 为 0.0; 

. maxMemoryInMB: 分 配给 直方 图 聚合 的 最 大 内 存 ， 默 认为 256MB， 

. cacheNodeIds=False， 

“ checkpointInterval: 设置 检查 点 间隔 (>=1) ， 或 不 设置 检查 点 〈-1) 默认 值 为 10; 
` imputity: 计算 信息 增益 的 准则 ， 默 认 值 为 vatiance 

.seed: 随机 种 子 ， 软 认为 None， 

.vatianceCol: 预测 的 有 偏 样本 偏差 的 列 名 ， 软 认 无 。 


2) 设置 决策 树 回 归 模 型 参数 : 


寺 征 作为 类 别 


寺 征 ， 哪 些 作 为 连 


"holidayVec", "weekdayVec", "workingdayVec", "weathersitVec", "temp", "atemp", "hum", "windspeed")) 


续 性 特征 。 


.SetOutr 





val dt = new DecisionTreeRegressor () 


.SetLabelCol ("] 





abel") 











.Se 


tFeaturesCol 





.SetMaxBins (64) 
.SetMaxDepth (15 





("indexedFeatures") 


) 


3) 设置 线性 回归 模型 的 参数 : 


val lr =new LinearRegression () 


.SetFeaturesCo] 
.SetLabelCol ("] 











("features lr") 





abel") 





.Se 





.Se 





tMaxIter (20) 


.SetRegParam (0 . 





“Se 














trFitIintercept (true) 


3) 


tElasticNetParam(0.8) 


4) 把 决策 树 回 归 模 型 涉及 的 特征 转换 及 模型 训练 组 装 在 一 个 流水 线 上 : 


val 


pipeline = 


new Pipeline() .setStages (Array (assembler, featureIndexer, dt)) 














5) 把 线性 回归 模型 涉及 的 特征 转换 、 模 型 训练 组 装载 一 个 流水 上 线 : 


val pipeline lr= new Pipeline () .setStages (Array (assembler lr,1r)) 








6) 


// 训 


1 model = pi 


训练 模型 


| 练 决策 树 回 归 模 型 








peline.fit (trainingData) 





Va 
// 训 


Val 








| 练 线性 回归 模型 








7) 


lrModel = pipeline 1r. 


作出 预测 : 


fit (trainingData 1r) 





// 预 测 决 策 树 


val 





Val 





predictions 





predictions 


回归 的 值 





= model .transform (testData) 


// 预 测 线 性 回归 模型 的 值 











_lr = lrModel. 





transform(testData 1r) 





8) 


评估 模型 : 


RegressionEvaluator.setMetricName 可 以 定义 四 种 评估 器 : rmse (默认 ) 、mse、r2、mae。 





val 


evaluator =new Regressionl 


.SetLabelCol ("] 
.SetPredictionC 
.SetMetricName ( 


// 决 策 树 模 型 评估 指标 


val 





Evaluator () 





abel") 





ol ("prediction") 











rmse = evaluator.evaluate (predictions) 





//rmse: Double 
rmse lr = evaluator.evaluate (predictions 1r) 





val 


// rmse lr: Double = 102.05406408259029 


"rmse") 


= 61.62409114645229 





从 以 上 使 用 不 同 模型 情况 看 来 ， 决 策 树 性 能 稍 好 与 线性 回归 ， 但 这 仅 是 粗糙 的 比较 ， 下 面 使 用 模型 选择 中 介绍 的 一 些 方法 ， 对 线性 模型 进行 优化 。 


9.6 模型 优化 


从 图 9-3 可 知 ，temp 特 征 与 atemp 特 征 线性 相关 ， 而 且 从 图 9-2 可 知 ，atemp 的 贡献 度 较 小 ， 所 以 我 们 将 过 滤 该 特 


征 。 





val assembler 1Lrl = new 


VectorAssembler () .set] 


对 label 标 签 特征 进行 转换 ， 使 其 更 接近 正 克 


// 导 入 需要 的 包 


import org.apache.spark.ml. 























[nputCols (Array ("seasonVec", "yrVec", "mthVec", "hrVec", 








former 





feature .SQLTrans 








new SQLTransformer() .setStatement ( 
"SELECT *, SQRT(label) as labell FROM THIS ") 








"holidayVec 


r 


weekdayVec 


wr 
r 


workingdayVec", "weathersitVec", "temp", "hum", "windspeed")) .setOutputCol ("ff 





分 布 ， 这 里 我 们 SQLTransformer 转 换 器 ， 其 具体 使 用 可 参考 第 4 章 。 


这 里 我 们 利用 训 | 练 验证 划分 法 对 线性 回归 模型 进行 优化 ， 对 参数 进行 网 格 化 ， 将 数据 集 划 分 为 训练 集 、 验 证 集 和 测试 集 。 


1) 导入 需要 用 到 的 包 ，。 











import org.apache.spark.ml .tuning. {ParamGridBuilder, TrainValidationSplit} 


2) 建立 模型 ， 预 测 label1 的 值 ， 设 置 线性 回归 参数 。 





val 
.Se 
.Set 


lrl = new L 





inearRegression () 











tFeaturesCo] 
tLabelCol ("] 





一 


"features 1r1") 
abell™) 








.Se 








tFitIntercep 





t (true) 





3) 设置 流水 线 ， 以 便 将 特征 组 合 、 特 征 值 优化 、 模 型 训练 等 任务 组 装 到 这 条 流水 线 上 。 





val pipeline JIrl = new Pipeline () .SetStages (Array(assembler lrl1,sqlTrans,1r1)) 











4) 建立 参数 网 格 。 





val paramGrid = new ParamGridBuilder () 
.addGrid(lrl.elasticNetParam, Array (0.0, 0.8, 1.0)) 
.addGrid(1lrl .regParam,Array (0.1,0.3,0.5)) 
.addGrid(lrl .maxIter, Array(20, 30)) 

.build() 


























5) 选择 (prediction，label1) ， 计 算 测试 误差 。 





Val evaluator 1r] =new RegressionEvaluator () 
.SetLabelCol ("labell1") 

.Set 人 
.SetMetricName ("rmse") 

// 利 用 交叉 验证 方法 

val trainValidationSplit = new TrainValidationSplit() 

.SetEstimator (pipeline 1r1) 

.SetEvaluator (evaluator 1r1) 

.SetEstimatorParamMaps (paramGrid) 

.SetTrainRatio (0.8) 















































Bm 
F 























6) 训练 模型 并 自动 选择 最 优 参数 。 





val lrModell = trainValidationSplit.fit (trainingData 1r) 





7) 查看 模型 全 部 参数 。 



































lrModell .getEstimatorParamMaps.foreach { println }  // 参 数组 合 
lrModell.getEvaluator.extractParamMap () ”// 查 看 评估 参数 
lrModell .getEvaluator.isLargerBetter 
































8) 用 最 好 的 参数 组 合 ， 做 出 预测 。 








val predictions lrl = lrModell.transform(testData 1r) 
val rmse lrl1 = evaluator lrl.evaluate (predictions 1r1) 
//rmse lrl: Double = 3.1354674045018514 
// 显 示 转 换 后 特征 值 的 前 5 行 信息 

predictions lrl.select ("features lrl","label","labell", "Predqiction") .Show(5) 


// 结 果 显 示 如 下 : 











































































































0,http://www.hzcourse.com/resource/readBook?path= /ees Leah bom/ dns i /Ot | 39.0| 6.244997998398398| 2.544732781830004 
0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| 7.0|2.6457513110645907|1.1823933720401953 
0,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| 5.0| 2.23606797749979|1.3641560005748419 
0,h F | 
0,h F | 


















































































































































ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/... 7.012.645751311064590711.767450723116649 
ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...| 12.013.464101615137754411.5020350291356124 























看 了 对 标签 特征 进行 转换 、 利 用 网 格 参数 及 训练 验证 划分 等 优化 方法 ， 从 102 下 降 到 3 左右 ， 效 果 比 较 明 显 。 


9.7 “小结 


本 章 主要 介绍 Spark ML 的 线性 回归 模型 、 决 策 树 回 归 模 型 ， 对 共享 单车 的 租赁 信息 进行 预测 ， 由 于 很 多 数据 不 规范 ， 因 此 ， 对 原 数据 进行 了 二 元 向 量 转换 、 对 类 别 数据 索引 化 ， 然 后 把 这 些 转换 组 装 到 
流水 线 上 ， 在 训练 集 上 训练 模型 ， 在 测试 集 上 进行 预测 ， 最 后 ， 评 佑 指标 对 模型 进行 优化 。 


第 10 章 ”构建 Spark ML 聚 类 模型 


前 面 我 们 介绍 了 推荐 、 分 类 、 回 归 等 模型 ， 这 些 模型 属于 监督 学 习 ， 在 训练 模型 时 ， 都 提供 目标 值 或 标签 数据 ， 根 据 目 标 值 训练 模型 ， 然 后 根据 模型 对 测试 数据 或 新 数据 进行 推荐 、 分 类 或 预测 。 
但 实际 数据 有 很 多 是 没有 标签 数据 或 者 预先 标签 很 难 的 ， 但 我 们 又 希望 或 需要 从 这 些 数 据 中 提炼 一 些 规则 或 特征 等 ， 如 识别 异常 数据 、 对 客户 进行 分 类 等 ， 这 类 问题 就 属于 无 监督 学 习 。 


聚 类 是 一 种 无 监督 学 习 ， 它 与 分 类 不 同 ， 聚 类 所 要 求 划分 的 类 是 未 知 的 。 


0 


聚 类 算法 的 思想 就 是 物 以 类 聚 的 思想 ， 相 同性 质 的 点 在 空间 中 表现 得 较为 紧密 和 接近 ， 主 要 用 于 数据 探索 与 异常 检测 。 


聚 类 分 析 是 一 种 探索 性 的 分 析 ， 在 分 类 的 过 程 中 ， 人 们 不 必 事 先 给 出 一 个 分 类 的 标准 ， 它 能 够 从 样本 数据 出 友 ， 自 动 进 行 分 类 。 聚 类 分 析 也 有 很 多 方法 ， 使 用 不 同方 法 往往 会 得 到 不 同 的 结论 。 从 实际 
应 用 的 角度 看 ， 聚 类 分 析 是 数据 挖掘 的 主要 任务 之 一 。 而 且 聚 类 能 够 作为 一 个 独立 的 工具 获得 数据 的 分 布 状况 ， 观 察 每 一 族 数 据 的 特征 ， 集 中 对 特定 的 族 集合 作 进 一 步 地 分 析 。 聚 类 分 析 还 可 以 作为 其 他 算 
法 (如 分 类 和 推荐 等 算法 ) 的 预 处 理 步骤 。 


聚 类 是 机 器 学 习 中 一 种 重要 方法 ， 一 般 机 器 学 习 中 都 有 ， 当 然 Spark 也 不 例外 ，Sspark 目 前 支持 的 聚 类 算法 有 : 
“ 区 均 值 (K-means) 

. 三 层 贝 叶 斯 概率 模型 (Latent Ditichlet alocation，LDA) 

. 二 分 区 均值 (Bisecting K-means) 

- 高 斯 混合 〈Gaussian Mixture Model，GMMD) 

本 章 主要 介绍 K-means 聚 类 算法 ， 主 要 内 容 包括 : 

. K-means 模 型 简介 ; 


. 加载 数 据 ; 


. 探索 特征 属性 、 特 征 间 的 相关 性 等 ; 
* 预 处 理 数据 ; 
将 Pipeline 的 多 个 Stages 组 装 在 流水 线 上 ; 


. 模型 调 优 。 


10.1 K-means 模 型 简介 


作为 经 典 的 聚 类 算法 ， 一 般 的 机 器 学 习 框 架 里 都 有 K-means，Spark 自 然 也 不 例外 。 
不 过 Spark 中 的 K-means， 除 有 一 般 K-means 的 特点 外 ， 还 进行 了 如 下 的 优化 : 
1. 选 择 合适 的 K 值 


k 的 选择 是 K-means 算 法 的 关键 。Spark 在 KMeansModel 里 实现 了 computeCost 方 法 ， 这 个 方法 通过 计算 数据 集中 所 有 的 点 到 最 近 中 心 点 的 平方 和 来 衡量 聚 类 的 效果 。 一 般 来 说 ， 同 样 的 迭代 次 数 ， 


这 个 cost 值 越 小 ， 说 明 聚 类 的 效果 越 好 。 但 在 实际 使 用 过 程 中 ， 必 须 还 要 考虑 聚 类 结果 的 可 解释 性 ， 不 能 一 味 地 选择 cost 值 最 小 的 那个 k。 比 如 我 们 考虑 极限 情况 ， 数 据 集 有 n 个 点 ， 如 果 令 k=n， 每 个 点 都 
是 聚 类 中 心 ， 每 个 类 都 只 有 一 个 点 ， 此 时 cost 值 最 小 为 0。 但 是 这 样 的 聚 类 结果 显然 是 没有 实际 意义 的 。 


2. 选 择 合适 的 初始 中 心 点 


大 部 分 迭代 算法 都 对 初始 值 很 敏感 ，K-means 也 是 如 此 。Spark 在 初始 中 心 点 的 选择 上 ， 使 用 了 K-means++ 的 算法 。 想 要 详细 了 解 K-means++ 的 同学 们 ， 可 以 参考 K-means++ 在 wiki 上 的 介 
绍 : https://en.wikipedia.org/wiki/K-means%2B%2B。 


K-means++ 的 基本 思想 是 使 初始 中 心 店 的 相互 距离 尽 可 能 元。 为 了 实现 这 个 初衷， 采取 如 下 步骤 : 


1) 从 初始 数据 集中 随机 选择 一 个 点 作为 第 一 个 聚 类 中 心 点 。 


2) 计算 数据 集中 所 有 点 到 最 近 一 个 中 心 点 的 距离 D(x) 并 存在 一 个 数组 里 ， 然 后 将 所 有 这 些 距离 加 起 来 得 到 Sum (D (x) ) 。 
3) 然后 再 取 一 个 随机 值 ， 用 权重 的 方式 计算 下 一 个 中 心 点 。 具 体 的 实现 方法 : 先 取 一 个 在 Sum (D (x) ) 范围 内 的 随机 值 ， 然 后 令 Random-=D (x) ， 直 至 Random<=0， 此 时 这 个 D (x) 对 应 的 
点 为 下 一 个 中 心 点 。 


4) 重复 2、3 步 直到 k 个 聚 类 中 心 点 被 找 出 。 
5) 利用 找 出 的 k 个 聚 类 中 心 点 ， 执 行 标准 的 K-means 算 法 。 
类 似 大 多 数 机 器 学 习 模 型 ，K-means 聚 类 需要 数值 向 量 作为 输入 ， 于 是 用 于 分 类 和 回归 的 特征 提取 和 变换 方法 也 适用 于 聚 类 。 


K-means 和 最 小 方差 回归 一 样 使 用 方差 溺 数 作为 优化 目标 ， 因 此 容易 受到 离 群 值 (outlier) 和 较 大 方差 的 特征 影响 。 对 于 回归 和 分 类 问题 来 说 ， 上 述 问题 可 以 通过 特征 的 归 一 化 和 标准 化 来 解决 ， 同 时 
可 能 有 助 于 提升 性 能 。 但 是 某 些 情况 我 们 可 能 不 希望 数据 被 标准 化 ， 比 如 根据 某 个 特定 的 特征 找到 对 应 的 类 族 。 


10.2 ”数据 加 载 


这 里 我 们 以 某 批发 经 销 商 的 客户 对 不 同 产 品 的 年 度 消费 支出 为 例 (数据 来 源 http://archive.ics.uciedu/ml/datasets/Wholesale+customers) ， 有 具体 信息 如 表 10-1 所 示 。 
表 10-1 ”数据 源 结构 说 明 
字段 含义 (一 年 内 的 消费 ) 备注 
Channel 表示 购买 的 渠道 1- 团购 、2- 雪 售 购买 
Region 表示 顾客 所 属 的 地 区 1- 里 斯 本 、2- 波尔图 、3- 其 他 
Fresh 在 新 鲜 产 品 的 年 度 文 出 上 
Milk 在 奶 制 产 品 上 的 消费 
Grocery 在 零食 上 的 消费 
Frozen 在 冷冻 食品 上 的 消费 
Detergents Paper 在 洗 洗 用品 和 纸 上 的 消费 
Delicassen 在 就 食 上 的 消费 








读 取 HDFS 中 的 数据 。 





// 导 入 需要 的 类 

import org.apache.spark.ml.clustering.KMeans 

import org.apache.spark.ml.feature.VectorAssembler 
import org.apache.spark.ml.feature.OneHotEncoder 
import org.apache.spark.ml.feature.StandardScaler 
import org.apache.spark.ml.{Pipeline, PipelineModel} 









































// 通 过 spark.read, 读 取 HDFS 中 的 数据 


val rawdata = spark.read.format ("csv") .option ("header", 


true) .load ("hdfs://master:9000/home/hadoop/data/customers sale.csv") 





10.3 ”探索 特征 的 相关 性 


数据 加 载 后 ， 首 先 我 们 看 一 下 数据 集 的 统计 信息 ， 看 是 否 有 缺失 值 、 各 特征 的 统计 信息 等 。 






























































// 数 据 的 样本 信息 
rawdata. show (3) 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
Channel |Region|Fresh|Milk|Grocery|Frozen|Detergents Paper|Delicassen | 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
2 3|12669|9656 了 561 214| 2674 1338| 
2 3| 705719810 9568 1762| 3293 1776| 
2 3| 635318808 7684 2405 | 3516 7844| 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 十 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
// 查 看 数据 结构 
rawdata .printSchema () 
root 
-- Channel: string (nullable = true) 
-- Region: string (nullable = true) 


-- Fresh: string (nullable = true) 
-- Milk: string (nullable = true) 









































-- Grocery: string (nullable = true) 

-- Frozen: string (nullable = true) 

-- Detergents Paper: String (nullable = true) 
-- Delicassen: string (nullable = true) 








从 以 上 分 析 可 以 看 出 ，rawdata 数 据 集 总 记录 数 为 440 条 ， 最 大 与 最 小 值 相差 不 大 ， 已 统计 的 特征 来 看 ， 没 有 缺失 值 ， 数 据 类 型 为 字符 型 ， 这 点 需要 在 预 处 理 中 转换 为 Double 型 。 
利用 pyspark 我 们 可 以 画 出 这 些 特征 间 的 相关 性 ， 这 里 使 用 pearson's r， 相 关系 统 在 [-1，1] 之 间 ， 如 果 r=1， 表 示 特 征 完全 正 相 关 ; r=0， 表 示 不 存在 关系 ; r=-1， 表 示 特 征 完全 负 相 关 。 


实现 代码 : 


import pandas as pd 

import numpy as np 

import seaborn as sns 

import matplotlib.pyplot as pilt 








df=pd.read csv('/home/hadoop/data/customer sale/customers sale.csv',header=0) 
cols=['Channel', 'Region', 'Fresh', 'Milk','Grocery', 'Frozen', 'Detergents Paper','Delicassen'] 


qf [cols] .values .TT) 














一 


Cm=np .COFrTCOef 





sns.set (font scale=1 .2) 

hm=sns .heatmap (cm, cbar=True, annot=True, square=True, fmt=" .2f',annot kws={"'size':15},yticklabels=cols,xticklabels=cols) 
plt.show () 
plt.savefig('sale corr.png') 






































代码 实现 结果 如 图 10-1 所 示 。 
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图 10-1 特征 间 的 相关 性 


从 图 10-1 可 以 看 出 ， 零 食 上 的 消费 (Grocery) 与 在 洗涤 用 品 和 纸 上 的 消费 (Detergents_Paper) 相关 性 最 大 (r=0.92) ; 零食 上 的 消费 (Grocery) 与 在 奶 制 产品 上 的 消费 (Milk) 相关 性 也 较 大 
(r=0.73) ; 另外 ,渠道 (Channel) 与 零食 上 的 消费 、 洗 涤 用 品 和 纸 上 的 消费 有 一 定 的 依赖 天 系 。 


10.4 ”数据 预 处 理 


通过 数据 探索 ， 发 现 数据 需要 又 字符 转换 为 数值 型 ， 并 缓存 。 





val datal= rawdata.select( 
rawdata ("Channel") .cast ("Double"), 
rawdata ("Region") .cast ("Double"), 
rawdata ("Fresh") .cast ("Double"™), 
rawdata ("Milk") .cast ("Double"), 
rawdata ("Grocery") .cast ("Double"™"), 

( 

( 

( 














rawdata ("Frozen") .cast ("Double"), 

rawdata ("Detergents Paper") .cast ("Double"), 

rawdata ("Delicassen") .cast ("Double")) .cache () 

查看 数据 的 统计 信息 : 

datal .select ("Fresh", "Milk","Grocery", "Frozen", "Detergents Paper","Delicassen") .describe() .show () 

十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
summary Fresh Milk Grocery Frozen Detergents Paper Delicassen 

count 440 440 440 440 440 440 


mean|12000.297727272728| 5796.265909090909|7951.277272727273|3071.931818181818|2881.4931818181817|1524.8704545454545 
stddev|12647.328865076885|17380.3771745708445|19503.162828994346|4854.673332592367| 4767.85444790420112820.1059373693965 
min 3:0 55..0 3:0 25.50 3:0 350 
max 112151.0 73498 .0 92780.0 60869.0 40827.0 47943.0 
十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
































Channel、Region 为 类 别 型 ， 其 余 6 个 字段 为 连续 型 ， 为 此 ， 在 训练 模型 前 ,需要 对 类 别 特征 先 转换 为 二 元 向 量 ,， 然 后 ， 对 各 特征 进行 规范 化 。 最 后 得 到 一 个 新 的 特征 向 量 。 


将 类 别 特征 转换 为 二 元 编码 : 





// 把 channe] 
val dataho 
.SetI 
LOU 
tDropLast ( 























.Se 
.Se 








false) 


// 把 Region 特 征 转 换 为 二 
val datahot2=new OneHot] 
[ tCol ("Region") 

tputCol ("Regionvector") 








.SetI 
“Se 
.Se 


npu 
LOU 
tDrop] 




















ast (false) 





特征 转换 为 二 元 编码 
l=new OneHot] 
nputCol ("Channel") 
tputCol ("Channelvector") 





元 编码 





Encoder () 


Encoder () 


把 新 生成 的 2 个 特征 及 原来 的 6 个 特征 组 成 一 个 特征 向 量 : 








val 





featuresArray 


=Array ("Channelvector", "Regionvector 


mw mw 
r 


Fresh", "Milk","Grocery", "Frozen", "Detergents Paper","Delicassen") 








把 原 数据 组 合成 特征 向 量 features: 


val vecDF = new VectorAssembler () 











.SetInputCols( 


featuresArray) 














.Se 


tOutputCol ("features") 








val scaledDF = new StandardScaler () 











.Se 
“SE 
‘SE 
.Se 





tOu 
上 WII 
CtWi 


tpu 
ENS 








td (true) 














InputCol ("features") 
tCol ("scaledFeatures") 


thMean (false) 





10.5 


组 关 


ML 包 下 的 KMeans 方 法 有 如 下 参数 可 供 设 置 : 


: SetFeatutesCol ( 设 定 特征 向 量 列 ) 


setSeed (随机 数 种 子 ) 


setTol (收敛 阅 值 ) 


. setKK ( 族 个 数 ) 


:SetMaxItet (最 大 和 欠 代 次 数 ) 


setInitMode (初始 化 方式 ) 


“setInitSteps (KMeans| | 方法 的 步 数 ) 


. setPredictionCol (设置 族 类 列 ) 


这 里 我 们 只 使 用 了 setK、setSeed 两 个 参数 ， 其 余 的 使 用 默认 值 。 








区 转换 二 元 向 量 、 特 征 规范 化 转换 等 组 装 到 流水 线 上 , 因 pipeline 中 无 聚 类 的 评估 函数 ,因此 ,这 里 流水 线 中 不 纳入 K-means。 具 体 实现 如 下 : 


























































































































T17805383750712050] Ls 


10.9383008955170281,0.4507899693071525,0.5065681906777801,0.24265278408979063,0.8047644998237361,0.0425515929773675] 

















.0,1026.0,40827.0,2944.0] is predicted as cluster 





11.2743402319919055,6.259436192390298, 9.763065378289248,0.21134274743304346,8.562971132213624, 








val kmeans = new KMeans () .setFeaturesCol ("scaledFeatures") .setK(4) .setSeed (123) 
// 

val pipelinel = new Pipeline() .setStages (Array (datahotl1,datahot2,vecDF, scaledDFr')) 
val data?2=pipelinel .fit (datal) .transform (datal) 

// 训 练 模型 

val model=kmeans .fit (data2) 

val results = model.transform (data2) 

// 评 估 模 型 

val WSSSE = model .computeCost (data2) 

printlin(s"Within Set Sum of Squared Errors = $WSSSE") 

// 显 示 聚 类 结 

printlin("Cluster Centers: ") 

model.clusterCenters.foreach (Println) 

results.collect() .foreach (row => {println( row(10) + " is predicted as cluster " + row(11))}) 
// 部 分 结果 

[000.0 L000 O00 00 L0118067 03327..0,4814.0'; 

predicted as cluster 

[0.0,0.0;2.1365167114232353,;0.0;0.0,0.0,2.22026194107233] 

[OO OO LO DrU DOrL61T 7 Dr46197.07392780 
[0.0,0.0,2.1365167114232353,0.0,0.0,0.0,2.22026194107233] 

1.0439324143780826] 








// 当 k=4 的 记录 数 








results.select ("scaledFeatures", "prediction") .groupBy ("prediction") .count .Show () 


十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 十 
|prediction|count| 


十 
/由 此 可 知 ,第 0, 3 簇 较 大 


ts.select 


十 
/ 
resul 
val 

resul 














tO0=resul 





10.6 模型 优化 


,1 2 比较 小 


("scaledFeatures", "prediction"). 











filter (i=>i (1)==0) .show (20) 





ts.select ("scaledFeatures", "prediction"). 








filter (i=>i (1)==0) .select ("scaledFeatures") 





聚 类 模型 中 最 重要 的 是 参数 k 的 选择 ， 下 面 我 们 通过 循环 来 获取 哪个 k 值 的 性 能 最 好 。 





KSSE 
1] kmeans 











new KMe 


(2 to 20 by 1) .tol 





ans () .se 


List.map { K => 
tFeaturesCol ("scaledFeatures") .setK (k) .setSeed (123) 


val model = kmeans.fit (data2) 

// 评估 性 能 

val WSSSE = model .computeCost (data2) 

// kr 实际 迭代 次 数 ,SSE, 聚 类 类 别 编号 ,每 类 的 记录 数 ,类 中 心 点 


(k, model.getMaxIter, WSSSE, model.summary.cluster, model.summary.clusterSizes, model.clusterCenters) 








// 显 示 k、WSSSE 评 估 指 标 , 并 按 指标 排序 

KSSE .map (x=> (Xx. 1,x. 3)).sortBy (x=>x. 2).foreach (println) 
// 显 示 结 果 

(20, 635.6231456631109) 

(19,674.1240263779249) 
(18,696.2925462727684) 
(17,747.697734807987) 
(15, 848.393503421027) 
(16,878.8045714559038) 
(14, 932.4137349866897) 
(13, 988.2458378719449) 
(12,1026.9426528633646) 
(11,1165.7468060138433) 
( 
( 
( 
( 
( 
( 
( 
( 

















10,1201.1295734061587) 
9,1242.388169008257) 





~ 


8,1399.0770764839624 
7,1523.4613624094593 








) 
) 
6,1965.6551642041663) 
5,2405.5349119889274) 
4,2595.7328287620885) 
3,3123.9948271417393) 
(2, 3480 .224930619828) 

// 把 该 结果 保存 到 HDFS 上 

KSSE.map (x=> (x. 1,x. 3)).sortBy (x=>x. 2) .toDF.write.save("/home/hadoop/data/ksse") 





以 上 数据 可 视 化 的 图 形 如 图 10-2 所 示 。 


— kmeans computeCost 





图 10-2” 聚 类 模型 中 族 k 与 评估 指标 的 关系 
从 图 10-2 中 不 难看 出 ,，k<12 时 ,性 能 (computeCost) 提升 比较 明显 ，k> 12 后 ， 逐 渐变 缓 。 所 以 k 越 大 不 一 定 越 好 ， 恰 当 才 是 重要 的 。 


当 k=10 时 ， 聚 类 结果 如 下 : 


十 = 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 十 
prediction|count 
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图 10-3 为 k 取 10 时 ( 族 0 对 应 的 channel 和 Region 分 别 为 和 3; 族 3 对 应 的 channel 和 Region 分 别 为 2 和 3) ， 前 两 大 族 的 销售 均值 比较 图 ， 从 图 中 可 以 看 出 ， 团 购 冷 藏 食品 均值 大 于 或 接近 零售 冷藏 食品 
均值 。 说 明 团购 对 冷藏 食品 量 比较 大 。 
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图 10-3 ” 聚 类 模型 中 k=10 时 0 和 3 族 平均 销售 额 对 比 


10.7 小 结 


本 章 主要 介绍 了 用 Spark ML 中 的 聚 类 算法 ， 对 某 地 多 种 销售 数据 进行 聚 类 分 析 ， 在 分 析 前 对 数据 集 主 要 特征 进行 了 相关 性 分 析 ， 并 对 类 别 数据 进行 二 元 向 量化 ， 对 连续 性 数据 进行 规范 和 标准 化 ， 然 后 
把 这 些 stages 组 装 在 流水 线 上 ， 在 模型 训练 中 ， 我 们 尝试 不 同 k 的 取 值 ， 以 便 获 取 最 佳 族群 数 。 


第 11 章 ”PySpark 决 策 树 模型 


spark 不 但 好 用 、 而 且 还 易 用 、 通 用 ， 它 提供 多 种 开发 语言 的 AP1， 除 了 scala 外 ， 还 有 Java、Python、R 等 ， 可 以 说 集成 目前 市 场 最 有 代表 性 的 开发 语言 ， 使 得 Spark 受 众 上 升 几 个 数据 量 级 ， 同 时 也 无 
形 中 降低 了 学 习 和 使 用 的 门槛 ， 使 得 很 多 熟悉 Java、Python、R 的 编程 人 员 、 数 据 分 析 师 ， 也 可 以 方便 地 利用 Spark 大 数据 计算 框架 来 实现 他 们 的 大 数据 处 理 、 机 器 学 习 等 任务 。 


Python 作为 机 器 学 习 中 的 利器 ， 一 直 被 很 多 开发 者 和 学 习 者 所 推崇 。 除 了 开源 、 易 学 ， 以 及 简洁 的 代码 风格 的 特性 之 外 ，Python 当 中 还 有 很 多 优秀 的 第 三 方 库 ， 为 我 们 对 数据 进行 处 理 、 探 索 和 模型 
的 构建 提供 很 大 的 便利 ， 如 Pandas、Numpy、Scipy、Matplotlib、StatsModels、Scikit-Learn、Keras 等 。Python 的 强大 还 体现 在 它 的 与 时 俱 进 ， 它 与 大 数据 计算 平台 Spark 的 结合 ， 可 谓 是 强 强 联合 、 
优势 互补 、 相 得 益 彰 ， 这 就 有 了 现 如 今 Spark 当 中 一 个 重要 分 支 一 一 PySpark。 其 内 部 架构 可 参考 图 11-1 (该 图 取 
自 https://cwiki.apache.org/confluence/display/SPARKVPySpark+lnternals? spm=5176.100239.0.0.el851) 。 


PySspark 的 Python 解释 器 在 启动 时 会 同时 启动 一 个 JVM ，Python 解 释 器 与 JVM 进 程 通过 socket 进 行 通信 ， 在 python driver 端 ，SparkContext 利 用 Py4J 启 动 一 个 JVM 并 产生 一 个 JavaSparkContext。 
Py4J 只 使 用 在 driver 端 ， 用 于 本 地 python 与 Java SparkContext objects 的 通信 。 大 量 数据 的 传输 使 用 的 是 另 一 个 机 制 。RDD 在 python 下 的 转换 会 被 映射 成 java 环 境 下 PythonRDD。 在 远 端 worker 机 器 
上 ，PythonRDD 对 象 启动 一 些 子 进程 并 通过 pipes 与 这 些 子 进程 通信 ， 以 此 send 用 户 代码 和 数据 。 
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图 11-1 PySpatk 架 构图 
本 章 就 机 器 学 习 中 的 决策 树 模 型 ， 使 用 PySpark 中 的 ML 库 ， 以 及 IPython 交 互 式 环境 进行 讲解 。 具 体内 容 如 下 : 
` 决策 树 简介 ，; 
数据 加 载 ; 
. 数据 探索 ; 
` 创建 决策 树 模型 ; 
“ 训练 模型 并 进行 预测 ; 
“ 利用 交叉 验证 、 网 格 参数 等 进行 模型 调 优 ; 


最 后 生成 一 个 可 执行 Python 脚本 。 


11.1 PySpark 和 信介 


在 Spark 的 官网 上 这 么 介绍 PySpark: “PySpark is the Python API for Spark”， 也 就 是 说 PySpark 其 实 是 Spark 为 Python 提供 的 编程 接口 。 此 外 ，Spark 还 提供 了 关于 Scala、Java 和 R 的 编程 接口， 
关于 Spark 为 R 提 供 的 编程 接口 (SparkR) 将 在 第 12 章 进行 介绍 。 


与 传统 的 Spark 相 比 ，PySpark 的 优势 体现 在 : 
. 可 以 使 用 Python 编程 ， 并 且 可 以 使 用 PySpatk 直 接 运行 Python 的 脚本 ; 
* PySpatk 具 备 了 Python 强 大 的 可 视 化 功能 ， 这 大 大 弥补 了 Spa 代 无 法 定制 高 质量 的 可 视 化 图 形 的 缺陷 ; 
. PySpatk 将 IPython 整 合 到 Spatk 中 ， 强 大 的 代码 补 全 功能 ， 提 供 了 更 好 的 交互 式 编程 体验 。 

与 传统 的 Python 相 比 ，PySpark 的 优势 体现 在 : 


. PySpatk 的 底层 架构 依旧 是 基于 HDFS 文 件 系 统 ， 这 就 意味 着 PySpatk 可 以 直接 读 取 HDFS 中 的 数据 文件 ， 而 传统 的 Python 读 取 HDFS 中 的 文件 需要 借助 hdfs3 这 个 第 三 方 库 。 同 时 PySpark 可 以 直接 读 取 
HBase 和 Hive 中 的 数据 表 ; 


“ PySpa 永 中 的 DataFrame 较 Pandas 中 的 DataFrame 可 以 容纳 更 多 的 数据 集 ， 实 现 了 真正 意义 上 的 大 数据 处 理 ， 并 且 提 供 了 schema， 这 是 Pandas 所 不 具有 的 ; 
PySpak 支 持 Hadoop， 实 现 了 分 布 式 处 理 数 据 量 大 的 文件 ， 效 率 更 加 高 效 ，; 

" PySpark 将 机 器 学 习 的 库 已 经 进行 封装 ， 并 且 提 供 了 流水 线 (Pipeline) ， 大 大 方便 了 开发 者 的 使 用 ; 

* PySpa 代 采用 分 布 式 并 行 计算 框架 ， 内 建 并 行 机 制 parallelism， 所 有 的 数据 和 操作 自动 并 行 分 布 在 各 个 集群 结 点 上 ; 


" PySpark 采 用 内 存 机 制 处 理 ， 可 以 将 RDD 或 者 DataFrame 保 存在 内 存 中 ， 减 少 I/O 读 取 ， 使 得 数据 处 理 更 加 高 效 ; 一 般 的 Python 只 支持 单机 缓存 。 


PySpark 提 供 了 2 种 机 器 学 习 的 包 ， 分 别 是 MLlib 和 ML。MLlib 是 基于 RDD 的 ， 从 Spark 2.0 开 始 ， 基 于 RDD 的 API 进 入 维护 模式 〈 即 不 再 增加 任何 新 的 特性 ) ， 并 预期 于 3.0 版 本 的 时 候 从 Spark 中 移 除 。 
ML 提供 了 基于 DataFrames 高 层次 的 API1， 可 以 用 来 构建 机 器 学 习 工作 流 (Pipeline) 。ML Pipeline 弥 补 了 原始 的 MLlib 库 的 不 足 ， 向 用 户 提供 了 一 个 基于 DataFrame 的 机 器 学 习 工 作 流 API| 套 件 。 


11.2 决策 树 简 介 


决策 树 在 机 器 学 习 中 是 很 常见 且 经 常 使 用 的 模型 ， 它 是 一 种 强大 的 非 概率 模型 ， 可 以 用 来 表达 复杂 的 非 线 性 模式 和 特征 相互 关系 。 其 数据 结构 如 表 11-1 所 示 。 决 策 树 在 很 多 任务 上 表现 出 很 好 的 性 能 
相对 容易 理解 和 解释 ， 可 以 处 理 类 属 或 者 数值 特征 ， 同 时 不 要 求 输入 数据 的 归 一 化 或 者 标准 化 。 


表 11-1 数据 结构 


TT ET 


( 续 ) 


如 图 11-2 所 示 ， 是 使 用 决策 树 模型 来 评价 用 户 是 否 购买 电脑 的 模型 结构 。 模 型 通过 对 不 同 特征 值 的 判断 ， 来 预测 用 户 是 否 会 购买 电脑 。 


age? 


youth 全 人、 senior 
middle aged 


/ Cyes > credit rating? 





fair excellent 





图 11-2 ”决策 树 结构 


整个 过 程 : 首先 从 用 户 的 年 龄 开始 判断 ， 如 果 用 户 是 中 年 人 ， 那 么 就 可 能 会 购买 电脑 ; 如 果 是 年 轻 人 ， 则 进行 下 一 步 判断 ， 如 果 是 学 生 就 可 能 会 购买 ， 否 则 不 会 购买 。 如 果 是 年 长 者 ， 那 么 根据 信用 评 
分 来 进行 下 一 步 的 判断 ， 如 果 是 一 般 的 ， 那 么 不 会 购买 ， 如 果 是 极 好 的 ， 那 么 就 可 能 购买 。 整 个 流程 从 根 节点 开始 不 断 向 下 做 判断 ， 呈 现 树 状 的 结构 ， 关 于 根 节点 以 及 叶子 节点 的 选择 是 通过 信息 粹 进行 计 
算 而 做 出 选择 。 


决策 树 算法 是 一 种 自 上 而 下 始 于 根 节点 (或 特征 ) 的 方法 ， 在 每 一 个 步骤 中 通过 评估 特征 分 裂 的 信息 增益 ， 最 后 选 出 分 割 数据 集 最 优 的 特征 。 信 息 增 益 通 过 计算 节点 不 纯度 ( 即 节点 标签 不 相似 或 不 同 
质 的 程度 ) 减 去 分 割 后 的 两 个 子 节点 不 纯度 的 加 权 和 。 对 于 分 类 任务 ， 这 里 有 两 个 评估 方法 用 于 选择 最 好 的 分 割 : 基尼 系数 和 灶 。 


关于 决策 树 的 原理 ， 这 里 不 表 袭 述 。 本 章 着 重 讨论 的 是 ， 决 策 树 的 分 类 模型 在 PySpark 中 的 应 用 。 


11.3 ”数据 加 载 


11.3.1 ” 原 数 据 集 初探 


这 里 的 数据 选择 为 某 比 赛 的 数据 集 ， 用 来 预测 推荐 的 一 些 页 面 是 短暂 ( 旦 花 一 现 ) 还 是 长 久 (长 时 流行 ) 。 原 数据 集 为 train.tsv， 和 存放 路 径 为 /home/hadoop/data/train.tsv。 


先 使 用 shell 命 令 对 数据 进行 试探 性 的 查看 ， 并 做 一 些 简单 的 数据 处 理 。 


1) 查看 前 2 行 数据 : 


$ head -2 train.tsv 







































































ographic-calls-air-breathing-batteries-by-2015.html™ "4042" "“{""title"™":""I 
BM Almaden Research Cen 














"url™" "urlid" "boilerplate" "alchemy category" "alchemy category score 
"avglinksize" "commonlinkratio 1" vy "commonlinkratio 2" 
"commonlinkratio 3" "commonlinkratio 4" "compression ratio" 
"embed ratio" "framebased" "frameTagRatio" "hasDomainLink" 
"htm] ratio" "image ratio" "is news" 

"LengthyLinkDomainn "linkwordscore" "news front page" 

"non markup alphanum characters" "numberOfLinks" "numwords in url" 
"parametrizedLinkRatio" "spelling errors ratio" "Jabel" 

"http://www.bloomberg.com/news/2010-12-23/ibm-predicts-ho] 

batteries"",""body"":""A sign stands outside the International Business Machines Corp I 
http://www.hzcourse.com/resource/readi 











Book?path=/openresources/teach ebook/uncompressed/17400/0F 





FE 











ter campus in San Uose Cali 





'BPS/Text/. .Pi 








BM Sees Holographic Calls Air 


tp://www.hzcourse.com/resource/read] 








Breathing Bat 





ve™ 





Book?path=/openresources/teach 








数据 集中 的 第 1 行为 标题 (字段 名 ) 行 ， 表 11-2 是 一 些 字段 的 说 明 。 紧 接着 的 22 列 为 各 种 数值 和 页 面 的 所 属 类 别 。 


字段 
url 

urlid 
boilerplate 


alchemy category 


label 


数据 集 主要 字段 说 明 


说 明 
面 的 url 
面 ID 


冯 | 汉 | 冯 | 滞 | 忆 


面 突 别 


最 后 一 列 为 标签 ， 用 来 标识 网 页 是 长 久 的 还 是 暂时 的 。 取 值 为 Oo 和 1，1 标 识 此 页 面 是 长 久 的 ，0 表 示 此 页 面 是 暂时 的 。 


2) 查看 文件 记录 总 数 : 


$ cat train.tsv |wc -1 
7396 


面 的 文本 内 
面 所 属 类 列 


Fe 





结果 显示 共有 : 数据 集 一 共有 7396 条 数据 。 


3) 由 于 textFile 目 前 不 好 过 滤 标 题 行 数据 ， 为 便于 spark 操 作 数 据 ， 需 要 先 删 除 标题 : 





$ sed 1d train.tsv >train noheader.tsv 





4) 将 数据 文件 上 传 到 hdfs: 








fs d 











$ hd fs -put train noheader.tsv /data 


5) 查看 是 否 成 功 : 

















fs dfs -ls /da 
til.NativeCodel 


hadoop@master:~/data$ hd 
17/05/24 00:46:20 WARN ut 


ta 
Loader: Unable to load native-hadoop library 1 
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Found 1 items 
—IW-—I——I—— 1 hadoop supergroup 
/data/train noheader.tsv 


21972457 2017-05-24 00:46 








11.3 ”数据 加 载 


11.3.1 ” 原 数 据 集 初探 


这 里 的 数据 选择 为 某 比 赛 的 数据 集 ， 用 来 预测 推荐 的 一 些 页 面 是 短暂 (县 花 一 现 ) j 


先 使 用 shell 命 令 对 数据 进行 


1) 查看 前 2 行 数据 : 


试探 性 的 查看 ， 并 做 一 些 简 单 的 数据 处 理 。 


还 是 长 久 (长 时 流行 ) 。 


原 数 据 集 为 train.tsv， 存 放 路 径 为 /home/hadoop/data/train.tsv。 





$ head -2 train.tsyv 
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数据 集中 的 第 1 行为 标题 (字段 名 ) 行 ， 表 11-2 是 一 些 字段 的 说 明 。 


字 
url 


urlid 


段 


boilerplate 


表 11-2 


alchemy category 


label 


后 一 列 为 标签 ， 用 来 标识 网 页 是 长 久 的 还 是 暂 


最 后 


2) 查看 文件 记录 总 数 : 


时 的 。 取 值 为 0 和 1 ， 


紧 接 着 的 22 列 为 各 种 数值 和 页 面 的 所 属 类 别 。 


数据 集 主 要 字段 说 明 


说 明 
面 的 url 
面 ID 


面 所 属 类 
面 类 别 


| 当当 | 辕 | 习 


b= 


™ 


1 标识 此 页 面 是 长 久 的 ，0 表 示 此 页 面 是 暂时 的 。 


面 的 文本 内 


Fp 


窜 
有 





$ cat train.tsv |wc -1 
7396 





结果 显示 共有 : 数据 集 一 共有 7396 条 数据 。 


3) 由 于 textFile 目 前 不 好 过 滤 标题 


$ sed 1d train.tsv >train noheader.tsv 


行 数据 ， 为 便于 spark 操 作 数 据 ， 需 要 先 删 除 标题 : 





4) 将 数据 文件 上 传 到 hdfs: 





$ hdfs df 











s -put train noheader.tsv /data 





5) 查看 是 否 成 功 : 





1 


A 








fs -ls /data 





hadoop@master:~/data$ hdfs d 
17/05/24 00:46:20 WARN ut 
Found 1 items 

一 工 W 一 工 一 一 工 一 一 1 hadoop supergroup 
/data/train noheader.tsv 

















.3.2 ”PySpark 的 启动 


il.NativeCodeLoader: Unable to load native-hadoop library 


21972457 2017-05-24 00:46 


以 spark Standalone 模 式 启 动 Spark 集 群 ， 保 证 内 存 分 配 充足 。 





for your platf 








ormhttp://www.hzcourse.com/resource/read 








Book?path=/openresources/teach ebook/ur 





$ pyspark --master spark://master:7077 --driver-memory 4G --total-executor-cores 4 





PySpark 的 常见 的 启动 指令 如 表 11-3 所 示 。 


表 11-3 ”pyspatk 启 动 参数 说 明 


指令 说 明 


master 局 动人 口 ， 篆 见 的 有 : spark、mesos 、yarn 以 及 local 
driver-memory 驱动 内 存 ， 默 认 是 1024M 

executor-memory 执行 硕 内 存 ， 默 认 是 1G 

conf 任意 的 Spark 配置 文件 

total-executor-cores 执行 硕 的 总 核心 数 


注 : 使 用 pyspatk--help 可 以 查看 指令 的 详细 帮助 信息 。 


GQ 注意 1) 在 Spark 2.0 之 前 ， 启动 PySpatk 的 IPython 交 互 式 使 用 : 
IPYTHON=1 IPYTHON_OPTS=” --pylab” pyspatk --master spark://mastet:7077 --driver-memory 4G --total-executor-cores 4 
2) 在 Spatk 2.0 以 后 版 本 ， 移 除了 IPYTHON 和 IPYTHON_OPTS 指 令 。 可 以 在 配置 文件 中 设置 启动 PySpark 时 默认 shell 环 境 为 IPython。 


在 spark/bin/pyspatk 文 件 中 ， 以 下 地 方 做 修改 ,设置 PySpatk 默 认 启 动 为 IPython。 








# Default to standard python interpreter unless told otherwise 
[[ -z "S$PYSPARK DRIVER PYTHON" ]]; then 
PYSPARK DRIVER PYTHON=»$ {PYSPARK PYTHON:-»ipython»}» 


















































11.3.3 ”基本 函数 


这 里 对 本 章 中 需要 用 到 函数 和 方法 做 一 个 简单 的 说 明 ， 如 表 11-4 所 示 。 
表 11-4 本 章 使 用 的 一 些 函 数 或 方法 简介 
函数 说 明 
sc.textFile(path) 读 取 路 径 中 的 数据 文件 ， 产 生 一 个 RDD 
rdd.take(n) 查看 前 行 数据 
rdd.count() 统计 RDD 中 的 元 素 个 数 
rdd.countByKey!() 按键 进行 统计 个 效 
rdd.first() 查看 数据 集 的 第 一 行 数据 
rdd.collect() 将 RDD 中 所 有 元 系 以 列表 的 形式 返回 
Vectors.dense(#elements) 从 列表 或 数值 中 创建 一 个 密集 矢量 
Spark.createDataFrame() 创建 一 个 DataFrame 对 象 


11.4 数据 探索 


1) 通过 sc 对 象 的 textFile 方 法 ， 载 入 本 地 数据 文件 ， 创 建 RDD: 











In [1]: raw data = sc.textFile("hdfs://master:9000/data/train noheader.tsv") 


2) 查看 第 1 行 数据 : 








In [2]: raw data.take (2) 

Out[2]:[u'"http://www.bloomberg.com/news/2010-12-23/ibm-predicts-holographic-calls-air-breathing-batteries-by-2015.html"\t"4042"\t"{""title"":""IBM Sees 

Holographic Calls Air Breathing Batteries ibm sees holographic calls, air-breathing batteries"",""body"":""A sign stands outside the International Business Machines Corp IBM Al] 
Calihttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/..."\thttp://www.hzcourse.com/resource/readBook?path=/openresources/ 
u' "nttp://www.popsci.com/technology/article/2012-07/electronic-futuristic-starting-gun-eliminates-advantages-races"\t"8471"™\t"{""title"™":""The Fully 

Electronic Futuristic Starting Gun That Eliminates Advantages in Races the fully electronic, futuristic starting gun that eliminates advantages in races the fully electronic, f 
races"", ""body"":""And that can be carried on a plane without the hassle too The Omegahttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/174 



















































































































































































显然 ， 和 原 数 据 集 一 致 ， 表 明 我 们 的 数据 加 载 无 误 (由 于 中 间 内 容 太 多 ，.… 代 表 省 略 内 容 ) 。 从 以 上 数据 格式 可 知 ， 字 段 间 由 制 表 符 (\t) 进行 分 割 。 
同时 ,我 们 也 可 以 使 用 raw_data.first () 来 查看 第 一 行 数据 ， 显 示 内 容 与 raw_data.take (1) 是 一 样 的 内 容 ， 这 里 不 再 给 出 ， 读 者 可 自行 党 试 。 


3) 查看 数据 文件 的 总 行 数 : 





In [3]: numRaws = raw data.count () 
In [4]: numRaws 
Gut[4]: 7395 








4) 按键 进行 统计 : 





In [5]: raw data.countByKey () 
Out[5]: defaultdict (int, {0'™”™: 7395}) 














原 数据 文件 总 的 行 数 为 7396， 由 于 我 们 已 经 在 数据 加 载 中 去 掉 数 据 集 的 第 一 行 数据 ， 所 以 这 里 结果 为 7395。 


局 注意 ”由 于 是 IPython 交 互 式 环境 ， 所 以 shell 的 指令 在 PySpatk 中 依旧 使 用 ， 如 cleat 等 。 


11.5 ”数据 预 处 理 


1) 由 于 后 续 的 算法 我 们 不 需要 时 间 截 以 及 网 页 的 内 容 ， 所 以 这 里 先 将 其 过 滤 掉 。 





In [6]: records = raw data.map (lambda line: line.split\( 





'\t')) 





2) 查看 records 数 据 结 构 : 


In [7]: records.first() 
Out[7]: 
[u' "nttp://www.bloomberg.com/news/2010-12-23/ibm-predic 
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3) 查看 每 一 行 的 列 数 : 








In [8]: len(recordqs .first()) 
Out [8]: 27 








thing Batteries ibm sees holographic calls, air-breathing batteries"",""body"":""A sign stands outside the 








International 








接 下 来 ， 需 要 对 数据 进行 清理 工作 ， 具 体 如 下 : 
@ 去 掉 引 号 

@ 把 标签 列 〈 即 最 后 一 列 ) 转换 为 整数 

@ 把 第 4 列 中 的 ”转换 为 0.0 


导入 Vectors 矢 量 方法 : 








In [9] : from pyspark.ml.linalg import Vectors 








导入 决策 树 分 类 器 : 














In [10] : from pyspark.ml.classification import DecisionTreeClassifier 











4) 将 RDD 中 的 所 有 元 素 以 列表 的 形式 返回 : 








In [11]: data = records.collect() 


5) 查看 data 数 据 一 行 有 和 多少 列 : 





In [12]: numColumns = len (data[0]) 
In [13]: numColumns 
Out[13] : 27 

















6) 定义 一 个 列表 data1， 和 存放 清理 过 的 数据 ， 格 式 为 [ (label 1, features 1) ， (label 2, features 2) ，...]: 


In [14]: datal = [] 





对 数据 进行 清理 工作 中 的 DD@@ 步 : 


In [15] : 
for i in range (numRaws) : 











label = int (trimmed[-1]) 
features = map (lambda x: 0.0 if 
c= (label, Vectors.dense (map (float, features))) 
datal .append (c) 


























trimmed = [ each.replace('"', "") for each in datal[lil] | 


x == "?" else x, trimmed[4:numColumns-1]) 


11.6 ”创建 决策 树 模型 


1) 将 data1 转 换 为 DataFrame 对 象 ，label 表 示 标 签 列 ，features 表 示 特 征 值 列 : 
































In [16]: df= spark.createDataFrame (datal, ["label","features"]) 
In [17]: df.show(10) 
十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
label features | 
十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
01[0.789131,2.05555http://www.nhzcourse.corm/tesource/reaqBook?path=/openresources/teach ebook/uncompressed/17400/O0EBPS/Text 





0 
0.574147,3.67796http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text 
0.996526,2.38288http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text 
1|[0.801248,1.54310nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text 
0|[0.719157,2.67647http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text 
[0 
0 
0 
0 
0 
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.22111,0.773809nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/... 
.0,1.883333333,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/... 
.0,0.471502591, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/... 
.0,2.41011236, Ohttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/... 
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only showing top 10 rows 


# 显示 df 的 Schema 
In [18]: af.printSchema () 











|-- label: long (nullable = true) 
|-- features: vector (nullable = true) 











2) 由 于 后 面 会 经 常 使 用 ， 所 以 将 df 载 入 内 存 : 





In [19]: qf.cache() 
Out [19] : DataFrame[label: double, features: Vector] 




















3) 建立 特征 索引 : 












































In [20] : from pyspark.ml.feature import VectorInadqexeL 
In [20] : featureIndqexer = VectorIindexer (inputCol="features", 
outputCol="indexedFeatures", maxCategories=24) .fit (df) 





4) 将 数据 切 分 成 80% 训 





练 集 和 20% 测 试 集 : 





#seed=1234L, 表示 每 次 随机 生成 的 训练 集 和 测试 集 的 总 行 数 不 变 
In [21]: (trainingData, testData) = df.randomSplit([0.8, 0.2],seed=1234L) 











In [22]: trainingData.count () 
Out [22]: 5912 








In [23] : testData.count () 
Out [23]: 1483 














5) 指定 决策 树 模型 的 深度 、 标 签 列 ， 特 征 值 列 ， 使 用 信息 业 (entropy) 作为 评估 方法 ， 并 训 





练 数据 。 














In [24]: dt = DecisionTreeClassifier (maxDepth=5, labelCol="label", 
featuresCol="indexedFeatures", impurity="entropy") 











6) 构建 流水 线 工 作 流 : 








In [25]: from pyspark.ml import Pipeline 














In [26]: pipeline = Pipeline (stages=[featureIndexer, dt]) 























In [27]: model = pipeline.fit (trainingData) ## 训练 模型 








下 一 节 我 们 用 一 组 已 知 数据 和 一 组 新 数据 重新 预测 下 结果 。 





11.7 ”训练 模型 进行 预测 


1) 使 用 第 一 行 数据 进行 预测 结果 ， 看 看 是 否 相 符合 ， 这 里 先 来 看 一 下 原 数据 集 的 第 一 行 数据 : 





In [28]: datal[0] 

Out [28]: 

(0.0， 

DenseVector ([0.7891, 2.0556, 0.6765, 0.2059, 0.0471, 0.0235, 0.4438, 0.0, 0.0, 0.0908, 0.0, 0.2458, 0.0039, 1.0, 1.0, 24.0, 0.0, 5424.0, 170.0, 8.0, 0.1529, 0.0791])) 





2) 使 用 数据 集中 第 一 行 的 特征 值 数 据 进 行 预 测 : 
























































n [29]: test0 = spark.createDataFrame ([ (datal[0] [1],)], ["features"]) 
In [30]: result = model.transform(test0) 
# 查看 预测 结果 
In [31]: result.show() 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
features | indexedFeatures |rawPrediction | probability|lprediction | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
[0.789131,2.05555http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.789131,2.05555http://www.hzcourse.com/resource/ 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 十 
In [32] : predqicteqResult.select(['preqiction']) .show()  # 只 获取 预测 值 
二 一 一 一 一 一 一 一 一 一 一 十 
prediction | 
二 -一 一 一 一 一 一 一 一 一 十 
1.0| 
二 -一 一 一 一 一 一 一 一 一 十 


3) 将 第 一 行 的 特征 值 数 据 修 改 掉 2 个 (这 里 换 掉 第 一 个 和 第 二 个 值 ) ， 进 行 该 特征 值 下 的 预测 : 





# 将 第 一 行 的 数据 进行 修改 
In [33]: firstRaw = list(datal[0] [1]) 
In [34]: firstRaw[0] = 2.7891 




















In [35]: firstRaw[l1] = 0.0556 








In [36]: predictedData = Vectors.dense (firstRaw) 
In [37]: predictedData 
Out[37]: DenseVector([2.7891, 0.0556, 0.6765, 0.2059, 0.0471, 0.0235, 0.4438, 0.0, 0.0, 0.0908, 0.0, 0.2458, 0.0039, 1.0, 1.0, 24.0, 0.0, 5424.0, 170.0, 8.0, 0.1529, 0.0791]) 

















4) 进行 新 数据 的 预测 : 


























In [38]: predictedRaw = spark.createDataFrame ([ (predictedData,)], ["features"]) 

In [39]: predictedResult = model.transform (predictedRaw) 

In [40]: predictedResult.show() 

Pe 十 PT 十 | 加 
features inqexeqFeatures |rawPrediction probabilityl|prediction 














[2.7891,0.0556, 0http://www.hzcourse.com/resource/readBook?path=/openresources/teach ， a i i ee 









































n [41] ee Select (['prediction']).show() 
prediction 
1.0 








5) 下 面 我 们 用 测试 数据 做 决策 树 准确 度 测试 : 

































































# 通过 模型 ,预测 测试 集 
In [42]: predictedResultAll = model.transform(testData) 
# 查 看 预测 值 
In [43] : predictedResultAll.select ("prediction") .Show () 
a 十 
prediction 

0.0 

0.0 

1 

可 

0.0 

0.0 

0.0 

0.0 

0.0 

了 








only showing top 10 rows 













































































# 由 于 预测 值 是 DataFrame 对 象 ,每 一 行 是 Raw 型 ,不 可 做 修改 
4 玉昌 住 转换 为 pandas, 然 所 多 为 
[44] :df _prediction = predictedResultAll.select ("prediction") .toPangdas () 
[45] : dtPredictions = list(df prediction.prediction) 
# 查 看 前 10 个 预测 值 
In [46]: dtPredictions[:10] 
Out [46]: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 0.0] 





# 对 预测 值 做 准确 性 统计 
















































































In [47]: dtTotalCorrect = 0 
# 获 取 测 试 集 的 总 行 数 
In [48]: testRaw = testData.count () 
In [ ee testLabel = testData.select ("label") .collect () 
In [50] 
for i in range (testRaw): 
if dtPredictions[i] == testLabel[i]: 


dtTotalCorrect += 1 


In [51]: dtTotalCorrect 
Out[51]: 940 











In [52]: 1.0 * dtTotalCorrect / testRaw 
Out[52]: 0.6338503034389751 





11.8 ”模型 优化 


在 上 一 个 小 节 中 ， 我 们 发 现 使 用 决策 树 的 正确 率 不 算 高 ， 只 有 63.3850%。 在 这 一 小 节 ， 我 们 探究 一 下 改进 预测 准确 率 的 方法 。 
提 到 优化 ， 一 般 会 从 以 下 方面 考虑 : 

` 数据 的 履 盖 面 是 否 恰当 ? 

` 数据 是 否 清理 过 (如 去 嗓 等 ) ? 


“ 数据 是 否 规 范 (标准 化 、 正 则 化 ) ? 





. 数据 的 维度 是 否 合适 ? 

-类别 是 否 处 理 ? 

. 参数 、 算 法 是 否 最 好 ? 

. 如 果 出 现 过 拟 合 ， 是 否 采用 了 交叉 测试 等 方法 ? 


是 否 还 有 其 他 方法 。 


11.8.1 ”特征 值 的 优化 


由 于 对 原 数 据 只 做 了 简单 的 清理 ， 而 且 数据 取得 也 不 完全 ， 只 取 了 第 5 列 到 第 27 列 。 查 看 原 数 据 可 以 发 现 ， 第 4 列 数据 是 标识 该 网 页 的 性 质 的 ， 依 照 人 们 的 正常 的 想法 ， 这 往往 是 评判 一 个 网 页 是 长 久 的 
还 是 短暂 类 型 的 一 个 很 重要 的 参数 。 


1) 先 将 之 前 用 到 的 一 些 代 码 加 载 进来 。 








In [1]: from pyspark.ml.linalg import Vectors 

















: from pyspark.ml.classification import DecisionTreeClassifier 
: from pyspark.ml.feature import VectorIndexer 

: from pyspark.ml import Pipeline 
: raw data = sc.textFile("hdfs://master:9000/data/train noheagder.tsv") 
: numRaws = raw data.count () 
: records = raw data.map (lambda line: line.split('\t"')) 
: data = records.collect () 

: numColumns = len (data[0]) 

0]: datal = [ 















































让 











2) 由 于 这 里 对 网 页 类 型 的 标识 有 很 多 ， 需 要 单独 挑选 出 来 进行 处 理 。 








# 将 第 三 列 网 页 类 型 的 引号 去 除 掉 


In [11]: category = records.map (lambda x: x[3] .replace(™\"","")) 








将 网 页 的 唯一 类 型 筛选 出 来 ， 并 进行 排序 。 








In [12]: categories = sorted(category.distinct() .collect ()) 
In [13]: categories 
OuELL3: 

[u'?", 

u'arts entertainment', 
u'business', 
u'computer internet', 
u'culture politics', 
u'gaming', 

u'health', 

u'llaw crime', 
U'recreation', 
u'religion', 

u'science technology '， 
u'sports', 

u'unknown', 
uU'weather'] 

















3) 查看 网 页 类 型 的 个 数 。 


In [14]: numCategories = len (categories) 
In [15]: numCategories 
Out [15]: 14 




















我 们 就 可 以 使 用 “One of K” 来 标签 进行 转换 ， 即 [0，0，0,，0,，0,，0,，0,，0,，0,，0,，0,，0,，0,，0] 这 样 一 个 列表 。 如 果 网 页 标识 为 “?” ， 那 么 将 其 对 应 列表 的 值 置 为 1， 即 
[1，0，0,，0,，0,， 0, 0, 0, 0, 0, 0,， 0,， 0, 0]; 同 理 ， 如 果 网 页 性 质 标识 为 “wether”， 那 相应 的 列表 为 [0，0，0，0，0,，0,，0,， 0, 0, 0, 0, 0, 0, 1]。 


4) 紧 接 着 ， 我 们 定义 一 个 函数 ， 用 于 返回 当前 网 页 类 型 的 列表 。 























Tr 6, 

def transform category (x): 
markCategory = [0] * numCategories 
inaqex = categories.index (x) 
markCategory[index] = 1 


return markCategory 


5) 通过 这 样 的 处 理 ， 我 们 将 网 页 类 型 这 一 特征 值 转化 14 个 特征 值 ， 整 体 的 特征 值 其实 就 增加 了 14 个 。 接 下 来 ， 我 们 在 处 理 的 时 候 将 这 些 特征 值 加 入 进去 。 













































































Tr 由 于 光 ] 
for i in range (numRaws) : 
trimmed = [ each.replace('"', "") for each in datal[lil] | 
label = float (trimmed[-1]) 
cate = transform category (trimmed[3]) # 调 用 函数 ,返回 一 个 类 型 列表 
Features cate + map (lambda x: 0.0 if x == "?" else (x), trimmed[4:numColumns - 1]) 
c= (label, Vectors.dense (map (float, features))) 
datal .append (c) 


6) 创建 DataFrame 对 象 。 








In [18]: df= spark.createDataFrame (datal, ["label", "features"]) 


# 由 于 后 面 经 常 使 用 df, 所 以 载 入 内 存 
] [19]: df.cache () 
[20] : DataFrame [label: double, features: vector] 









































Out 








7) 建立 特征 索引 。 








In [21]: from pyspark.ml.feature import VectorInadexeL 


In [22]: featureIndexer = VectorIindexer (inputCol="features", 
outputCol="indexedFeatures", maxCategories=24) .fit (df) 















































8) 将 数据 切 分 成 80% 训 





练 集 和 209%6 测 试 集 。 








In [23]: (trainingData, testData) = df.randomSplit ([0.8, 0.2],seed=1234L) 














In [24]: trainingData.count () 
Out[24]: 5912 














In [25]: testData.count () 
Out [25]: 1483 











9) 创建 决策 树 模 型 。 





In [26]: dt = DecisionTreeClassifier (maxDepth=5, labelCol="label", 
featuresCol="indexedFeatures", impurity="entropy") 




















10) 构建 流水 线 工作 流 。 











[27] : pipeline = Pipeline (stages=[featureIndexer, dt]) 
[28] : model = pipeline.fit (trainingData) ## 训练 模型 






































11) 用 测试 数据 再 一 次 做 下 决策 树 准确 度 测试 。 








In [29] : predictedResultAll = moae].transform (testData) 
In [30] :df prediction = PredicteqResultA11.select ("prediction") .toPandas () 
In [31]: dtPredictions = list(df prediction.prediction) 


ee sd 




























































































[32]: dtTotalCorrect = 0 
# 测 斌 集 的 总 行 数 
In [33]: testRaw = testData.count () 
In [49]: testLabel = testData.select ("label") .collect () 
In [34]: 
for i in range (testRaw): 
if dtPredictions[i] == testLabel[i]: 














dtTotalCorrect += 1 


In [35]: dtTotalCorrect 
Out[35]: 967 





In [36]: 1.0 * dtTotalCorrect / testRaw 
Out[36]: 0.6520566419420094 





可 以 看 到 ， 准 确 率 增 大 到 了 65.2057%， 而 未 做 优化 前 的 准确 率 是 63.3850%。 增 长 了 1.88%。 效 果 还 是 比较 显著 的 。 


11.8.2 ”交叉 验证 和 网 格 参 数 
上 一 小 节 ， 我 们 从 特征 值 的 方面 进行 了 模型 的 优化 ， 其 实 模型 的 优化 工作 还 有 很 多 ， 例 如 从 准确 率 和 召回 率 入 手 ， 对 模型 进行 进一步 优化 。 在 这 一 小 节 中 ， 我 们 将 使 用 交叉 验证 和 网 格 参数 的 手段 ， 对 
模型 进行 优化 。 


关于 交叉 验证 和 网 格 参数 的 原理 ， 这 里 不 再 歼 述 ， 在 本 书 第 5 章 模型 选择 和 优化 一 章 中 ， 已 经 做 了 较为 详细 的 说 明 。 下 面 我 们 在 上 一 小 节 模 型 优化 的 基础 上 ， 用 决策 树 的 最 大 深度 使 用 参数 网 格 和 交叉 验 
证 的 手段 对 模型 进行 进一步 的 优化 ， 通 过 程序 自动 选择 决策 树 的 最 大 深度 来 获取 准确 率 最 高 的 模型 





























































































































































































































In [1]: from pyspark.ml.linalg import Vectors 
In [2]: from pyspark.ml.classification import DecisionTreeClassifier 
In [3]: from pyspark.ml.feature import VectorIindexer 
In [4]: from pyspark.ml import Pipeline 
In [5]: raw data = sc.textFile ("ndfs://master:9000/data/train noheader.tsv") 
In [6]: numRaws = raw data.count() 
In [7]: records = raw data.map (lambda line: line.split('\t')) 
In [8]: data = records.collect () 
In [9]: numColumns = len (data[l0]) 
In [10]: datal = [|] 
In [11]: category = records.map (lambda x: x[3] .replace(™\"","")) 
In [12]: categories = sorted(category.distinct() .collect ()) 
In [13]: numCategories = len (categories) 
In [14]: 
def transform category (x): 
markCategory = [0] * numCategories 
jndex = categories.index (x) 
markCategory[index] = 1 
return markCategory 
Lm [5]: 
for i in range (numRaws): 
trimmed = [ each.replace('"', "") for each in datalil] | 
label = float (trimmed[-1]) 
cate = transform category (trimmed[3]) # 调 用 函数 ,返回 一 个 类 型 列表 
atures cate + map (lambda x: 0.0 if x == "?" else (x), trimmed[4:numColumns - 1]) 
= (label, Vectors.dense (map (float, features))) 
a append (c) 
In [16]: df= spark.createDataFrame (datal, ["label", "features"]) 
In [17]: df.cache() 
In [18]: featureIndexer = VectorIndqexer (inputCol="features", outputCol="indexedFeatures", 
maxCategories=24) .fit (df) 
In [19]: dt = DecisionTreeClassifier (maxDepth=5, labelCol="label", featuresCol=" 


























indexedFeatures", impurity="entropy") 
In [20]: pipeline = Pipeline (stages=[featureIndexer, dt]) 
In [21]: (trainingData, testData) = df.randomSplit ([0.8, 0.2],seed=1234L) 












































创建 交叉 验证 和 网 格 参 数 : 


# 导入 交叉 验证 和 参数 网 格 










































































Im [22]: from pyspark.ml.tuning import CrossValidator, ParamGridBuilder 

# 导 和 二 分 类 评估 中 

Tn |: from pyspark.ml .evaluation import BinaryClassificationEvaluator 

In [24] : evaluator = BinaryClassificationEvaluator() # 初始 化 一 个 评估 器 

# 设 置 参 数 网 格 

In [25] : paramGrid = ParamGridBuilder() .addGrid(dt.maxDepth, [4,5,6]) .build() 

# 设 置 交 叉 验 证 的 参数 

In [26]: cv = CrossValidator() .setEstimator (pipeline) .setEvaluator (evaluator) .setEstimatorParamMaps (paramGrid) .setNumFolds (2) 























通过 交叉 验证 来 训 | 








In [27]: cvModel = cv.fit (trainingData) 


测试 模型 











In [28]: Predictions=cvModel .transform (LestDatal) 


准确 率 统计 : 



















































































In [29]: df prediction = Predictions.select ("prediction") .toPandas () 
In [30]: dtPredictions = list (df prediction.prediction) 
oo 
dtTotalCorrect = 0 

上 | 试 集 的 总 行 妆 
In [32]: testRaw = testData.count () 
In [34]: testLabel = testData.select ("label") .collect () 
In [33]: 
for i in range (testRaw): 

if dtPredictions[i] == testLabel [il]: 











dtTotalCorrect += 1 


In [34]: dtTotalCorrect 
Out[34]: 960 








In [35]: 1.0 * dtTotalCorrect / testRaw 
Out[35]: 0.6473364801078895 





我 们 还 可 以 查看 最 匹配 模型 的 具体 参数 : 


In [36]: bestmodel = cvModel.bestModel.stages[1 


i= 








In [37] : bestmodel.numFeatures # 决 策 树 有 36 个 特征 值 
Out[37]: 36 

















In [38] : bestmodel.depth # 最 大 深度 为 10 
Out[38]: 6 























In [39] : bestmodel.numNodes # 决 策 树 中 点 有 457 个 





11.9 ”脚本 方式 运行 


11.9.1 ”在 脚本 中 添加 配置 信息 
创建 一 个 decisionTree.py 文 件 ， 添 加 如 下 代码 来 配置 启动 PySpark。 将 上 述 在 PySpark 的 IPython 中 的 代码 添加 到 该 文件 中 来 。 
本 文 的 示例 程序 存 为 /home/hadoop/projects/spark/pyspark/decisionTree.py。 


from pyspark import SparkConf, SparkContext 
from pyspark.sql import SparkSession 














指定 本 地 运行 spark 
conf = SparkConf () .setMaster ("local[*]") 
sc = SparkContext (conf=conf) 
spark = SparkSession.builder.master('local') \\ 
.appName ('DecisionTree') \\ 
.config ("spark.some.config.option", "some-value") \\ 
.getOrCreate () 






































11.9 ”脚本 方式 运行 


11.9.1 ”在 脚本 中 添加 配置 信息 
创建 一 个 decisionTree.py 文 件 ， 添 加 如 下 代码 来 配置 启动 PySpark。 将 上 述 在 PySpark 的 IPython 中 的 代码 添加 到 该 文件 中 来 。 
本 文 的 示例 程序 存 为 /home/hadoop/projects/spark/pyspark/decisionTree.py。 


from pyspark import SparkConf, SparkContext 
from pyspark.sgql import SparkSession 














# 指 定 本 地 运行 spark 
conf = SparkConf () .setMaster ("local[*]") 
sc = SparkContext (conf=conf) 
spark = SparkSession.builder.master('local') \\ 

.appName ('DecisionTree') \\ 

.config ("spark.some.config.option", "some-value") \\ 

.getOrCreate () 



































11.9.2 运行 脚本 程序 


spark 2.0 之 前 使 用 pyspark decisionTree.py 来 执行 文件 ，spark 2.0 之 后 统一 用 spark-submit decisionTree.py 执 行文 件 。 读 者 可 以 使 用 spark-submit--help 来 查看 相关 命令 的 帮助 信息 。 


$ spark-submit decisionTree.py 





11.10 小 结 


本 章 我 们 了 解 Spark 中 的 PySpark 使 用 方法 ， 对 于 PySpark 做 了 简单 的 介绍 。 讨 论 了 分 类 模型 中 最 常见 的 决策 树 模型 在 PySpark 的 应 用 ， 用 实例 讲解 了 如 何 对 数据 进行 清理 、 转 换 ， 分 析 了 分 类 模型 的 准 
确 性 有 待 提高 的 原因 ， 通 过 可 视 化 对 决策 树 在 不 同 深度 下 的 准确 度 进行 讨论 。 


第 12 章 ”SparkR 朴 素 贝 叶 斯 模型 


前 一 章 我 们 介绍 了 PySpark， 就 是 用 Python 语言 操作 Spark 大 数据 计算 框架 上 的 任务 ， 这 样 就 自然 把 Python 的 优点 与 Spark 的 优势 进行 到 加 。Spark 提 供 了 Python 的 AP1， 也 提供 了 R 语 言 的 AP1， 其 组 
件 名 称 为 SparkR。SparkR 的 运行 原理 或 架构 如 图 12-1 所 示 。 


Worker 


Spark 


Executor 


Spark 


JavaSpark 
Context 


(ref in R) 


Context 





Spark 


Executor 





图 12-1 SparkR 架 构图 


SparkR 的 架构 类 似 于 PySpark，Driver 端 除了 一 个 JVM 进 程 外 (包含 一 个 SparkContext， 在 Spark2.X 中 SparkContext 已 经 被 SparkSession 所 代 蔡 ) ， 还 有 一 个 R 的 进程 ， 这 两 个 进程 通过 Socket 进 行 
通信 ， 用 户 可 以 提交 R 语 言 代 码 ，R 的 进程 会 执行 这 些 R 代 码 ， 当 R 代 码 调用 Spark 相 关 函 数 时 ，R 进 程 会 通过 9ocket 触 发 JVM 中 的 对 应 任务 。 


当 R 进 程 向 VM 进程 提交 任务 的 时 候 ，R 会 把 子 任务 需要 的 环境 进行 打包 ， 并 发 送 到 JVM 的 driver 端 。 通 过 R 生 成 的 RDD 都 会 是 RRDD 类 型 ， 当 触发 RRDD 的 action 时 ，Spark 的 执行 器 会 开启 一 个 R 进 程 ， 
执行 器 和 R 进 程 通过 Socket 进 行 通信 。 执 行 器 会 把 任务 和 所 需 的 环境 发 送 给 R 进 程 ，R 进 程 会 加 载 对 应 的 package， 执 行 任务 ， 并 返回 结果 。 


本 章 通 过 一 个 实例 来 说 明 如 何 使 用 SparkR， 具 体内 容 如 下 : 
. SpatkR 简介 ; 
“ 把 数据 上 传 到 HDFS， 然 后 导入 Hive， 最 后 从 Hive 读 取 数 据 ; 
` 使 用 朴素 贝 叶 斯 分 类 器 ; 
.探索 数据 ; 
预 处 理 数据 ; 
. 训练 模型 ; 


: 评估 模型 ; 


12.1 SparkR 简 介 


Spark 是 UC Berkeley AMP lab (加 州 大 学 伯克利 分 校 的 AMP 实 验 室 ) 所 开源 的 类 Hadoop MapReduce 的 通用 并 行 框架 ， 拥 有 Hadoop MapReduce 所 具有 的 优点 ; 但 不 同 于 MapReduce 的 是 Job 中 
间 输 出 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS， 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 的 算法 。 


SparkR 是 一 个 为 R 提 供 了 轻 量 级 的 Spark 前 端的 R 包 。SparkR 提 供 了 一 个 分 布 式 的 data frame 数 据 结构 ， 解 决 了 R 中 的 data frame 只 能 在 单机 中 使 用 的 瓶颈 ， 它 和 R 中 的 data frame 一 样 支持 许多 操作 ， 
比如 select、filter、aggregate 等 。 (类 似 dplyr 包 中 的 功能 ) 这 很 好 地 解决 了 R 的 大 数据 级 瓶颈 问题 。SparkR 也 支持 分 布 式 的 机 器 学 习 算法 ， 比 如 使 用 MLib 机 器 学 习 库 。SparkR 为 Spark 引 入 了 R 语 言 社区 
的 活力 ， 吸 引 了 大 量 的 数据 科学 家 开始 在 Spark 平 台 上 直接 开始 数据 分 析 之 旅 。 


2013 年 9 月 SparkR 作 为 一 个 独立 项 目 启动 于 加 州 大 学 伯克利 分 校 的 大 名 易 昂 的 AMPLAB 实 验 室 ， 与 Spark 源 出 同门 。2014 年 1 月 ，SparkR 项 目 在 github 上 开源 (https://github.com/amplab- 
extras/SparkR-pkg) 。 随 后 ， 来 自 工业 界 的 Alteryx、Databricks、Intel 等 公司 和 来 自学 术 界 的 普 渡 大 学 ， 以 及 其 他 开发 者 积极 参与 到 开发 中 来 ， 最 终 在 2015 年 4 月 成 功 地 合并 进 Spark 代 码 库 的 主干 分 
支 ， 并 在 Spark1.4 版 本 中 作为 重要 的 新 特性 之 一 正式 宣布 。 


目前 SparkR 的 最 新 版 本 为 2.0.1，API 参 考 文 档 : http://spark.apache.org/docs/latest/api/R/index.html。 


12.2 ”获取 数据 


12.2.1 


SparkDataFrame 是 Spark 提 供 的 分 布 式 数据 格式 (DataFrame) 。 


的 表 、 外 部 数据 库 或 现 有 的 本 地 数据 。 


12.2 ”获取 数据 


12.2.1 


SparkDataFrame 是 Spark 提 供 的 分 布 式 数据 格式 (DataFrame) 。 


的 表 、 外 部 数据 库 或 现 有 的 本 地 数据 。 


12.2.2 ”创建 SparkDataFrame 


SparkDataFrame 数 据 结 构 说 明 


SparkDataFrame 数 据 结 构 说 明 


1. 从 本 地 文件 加 载 数据 ， 生 成 SparkDataFrame 


SparkR 支 持 通 i 


你 可 以 找到 像 Avro 这 样 的 流行 文件 格式 的 数据 源 连 接 器 。 可 以 通 


些 包 。 示 例 : 


library("SparkeR", 


## 


## Attaching package: 
## The following object 





























'SparkR" 
ts are masked 


lib.loc="/u01/bigdata/spark/R/1lib")# 加 载 sparkR 


from "Packade:Sstats ' : 








非 # 

非 # cov, filter, lag, na.omit, predict, sd, var, window 

## The following objects are masked from 'package:base': 

## 

非 # as.data.frame, colnames, colnames<-, drop, endsWwith, 

非 # intersect, rank, rbind, sample, startsWith, subset, summary, 
非 # transform, union 





sparkR.session (sparkHome ='/u01/bigdata/spark' )# 启 动 Spark 环 境 

















## Spark package found in SPARK HOME : /u01/bigdata/spark 
## Launching java with 








## Java ref 


# 读 取 本 地 csv 文 件 
Sparkdf <-read.df("/u0] 














spark-submit command /u01l/bigdata/spark/bin/spark-submit 
type org.apache.spark.sql.SparkSession id 1 

















# 查看 SparkDataFrame 




















head (Sparkdf 


wir 























/bigdata/data/df2.csv", source='csv',header='TRUE', inferSchema ="true") 








间 # Sepal Length Sepal Wiath Petal _Length Petal Wigdth Species 
## 工 5 .1 355 .4 0.2 setosa 
## 2 4.9 3a0 1.4 0.2 setosa 
## 3 7? 3.2 L333 0.2 setosa 
## 4 4.6 下 es 0.2 setosa 
## 5 5.0 3.6 1.4 0.2 setosa 
## 6 5,4 3.9 Ley 0.4 setosa 





2. 利 用 R 环 境 的 data frames 创 建 SparkDataFrame 


类 似 于 关系 数据 库 中 的 表 或 R 语 言 中 的 DataFrame。SparkDataFrames 可 以 从 各 种 各 样 的 源 构 造 ， 


类 似 于 关系 数据 库 中 的 表 或 R 语 言 中 的 DataFrame。SparkDataFrames 可 以 从 各 种 各 样 的 源 构 


sparkr-shell /tmp/RtmpA30Gvz/backend port2ad1l1c0705g8 


例如 ,结构 化 数据 文件 、Hive 中 


造 ， 例 如 ， 结 构 化 数据 文件 、Hive 中 


过 SparkDataFrame 接 口 对 各 种 数据 源 进行 操作 。 从 数据 源 创建 SparkDataFrame 的 函数 是 read.df。SparkR 支 持 本 地 读 取 JSON、CSV 和 Parquet 文 件 ; 并 有 通过 第 三 方 项 目的 软件 包 ， 
过 使 用 spark-submit 或 SparkR 命 令 指定 packages 或 者 在 交互 式 R shell 或 RStudio 中 使 用 sparkPackages 参 数 初始 化 SparkSession 来 添加 这 


创建 SparkDataFrame 的 最 简单 的 方法 是 将 本 地 R 环 境 变量 中 的 data frames 转 换 为 SparkDataFrame。 我 们 可 以 使 用 as.DataFrame 或 createDataFrame 孙 数 来 创建 SparkDataFrame。 作 为 示例 ， 我 









































们 使 用 R 自 带 的 iris 数 据 集 来 创建 SparkDataFrame。 

















ibrary ("SparkR", lib.loc="/u01/bigdata/spark/R/lib")# 加 载 sparkR 
闪 # 

间 ## 0 Package: 'SparkR' 

## The ff owing objects are masked from 'package:stats': 

闪 # 

非 # cov, filter, lag, na.omit, predict, sd, var, window 

## The following objects are masked from 'package:base': 

闪 # 

非 # as.data.frame, colnames, colnames<-, drop, endsWwith, 

非 # intersect, rank, rbind, sample, startsWith, subset, summary, 
## transform, union 
sparkR.session (sparkHome ='/u01/bigdata/spark' )# 启 动 Spark 环 境 
## Java ref 











Sparkdf <-a 








s.DataFrame 











(iris) 


# 查看 刚 创建 好 的 SparkDataFrame 

















head (Sparkdf 





~ 一 














type org.apache.spark.sql.SparkSession id 1 
# 创建 SparkDataFrame Sparkdf, 数 据 来 自 iris 数 据 集 











间 # Sepal Length Sepal Wiqdth Petal _Length Petal Wigdth Species 
## 工 Sl 3%5 4 0.2 setosa 
## 2 4.9 3.0 1.4 0.2 setosa 
## 3 4.7 3.2 .3 0.2 setosa 
## 4 4.6 331 i 0.2 setosa 
## 5 5.0 3.6 1,4 0.2 setosa 
## 6 5.4 3.9 于/ 0.4 setosa 


3. 从 HDFS 文 件 系 统 加 载 数据 ， 生 成 SparkDataFrame 示 例 : 


library ("Sp 
# 


arkR", lib.loc="/u01/bigdata/spark/R/1ib")# 加 载 sparkR 









































间 # ee Package: 'SparkR' 

## The f owing objects are masked from 'package:stats': 

闪 # 

## cov, filter, lag, na.omit, predict, sd, var, window 

## The following objects are masked from 'package:base': 

闪 # 

非 # as.data.frame, colnames, colnames<-, drop, endsWwith, 

非 # intersect, rank, rbind, sample, startsWith, subset, summary, 
非 # transform, union 

## Java ref type org.apache.spark.sqgl.SparkSession id 1 








# 读 取 HDFS 文 件 








Sparkdf <-r 





saad.0r ("nd 











fs://192.168.1 











.112:9000/u01/bigdata/data/df2.csv", Source='csv'yheaqder='TRUE ' ， 


inf 





erSchema ="true") 














# 查看 SparkDataFrame 




















head (SParkdf ) 
间 ## Sepal Length Sepal Wiath Petal Length Petal Wigdth Species 





## 工 5.1 3553 1.4 0.2 setosa 
## 2 4.9 350 1.4 0.2 setosa 
## 3 4.7 S32 se: 0.2 setosa 
## 4 4.6 六 < 0.2 setosa 
## 5 5.0 3.6 工 .4 0.2 setosa 
## 6 5.4 3.9 Te? 0.4 setosa 











4. 读 取 Hive 数 据 仓 库 中 的 表 ， 生 成 SparkDataFrame 


我 们 还 可 以 从 Hive 表 创建 SparkDataFrame。 要 做 到 这 一 点 ， 我 们 需要 创建 一 个 具有 Hive 支 持 的 SparkSession， 它 可 以 访问 Hive MetaStore 中 的 表 。 请 注意 ，Spark 安 装 时 应 该 选择 支持 Hive 方 式 进行 
安装 。 在 SparkR 中 ， 默 认 情况 下 ， 它 将 党 试 创 建 一 个 启用 了 Hive 支 持 的 SparkSession (enableHiveSupport=TRUE) 。 





library("SparkR"，1ib.1oc="/u01/bigqata/spark/R/Lib")# 如 载 sparkR 
# 查看 数据 库 

sql('show databases') 

## SparkDataFrame [databaseName:string] 

# 选择 hive 库 
sgql('use hive') 
## SparkDataFrame[] 
# 查看 hive 数 据 库 的 表 
sgql('show tables') 
## SparkDataFrame [database:string, tableName:string, isTemporary:boolean] 
# 查看 表 df2 的 信息 
sgql('desc df2') 
## SparkDataFrame[col name:string, data type:string, comment:string] 
# 读 取 hive 表 qdf2, 生 成 SparkDataFrame 加 

Sparkdf<-sgql('select * from df2') 

# 查看 SparkDataFrame 

head (Sparkdf) 
闪 # height weight 







































































## 1 0.3307575 -1.4197984 
## 2 0.4970992 -1.4364733 
## 3 1.4477968 -0.7579736 
## 4 0.6815300 -1.7573564 
##: 5 0.8915567 1.1815332 
## 6 -2.2494993 -1.6438995 








12.2.3 SparkDataFrame 的 常用 操作 


1. 选 择 行 ， 或 者 列 





df <-as.DataFrame (iris) 
str (df) 
## 'SparkDataFrame': 5 variabl 
## S$ Sepal Length: num 5. 
## S$ Sepal Width : num 3 
## $ Petal Length: num 1. 
## S$ Petal Width : num 0 
## S$ Species : Chr "set 
head (df) 
i## Sepal Length Sepal Wid 
5 














. 
. 























7 
.4 


4 
9 
] 
0 
etosa" "setosa" "setosa" "setosa" 


sa" "setosa" "s 














Petal Length Petal Width Species 

工 . setosa 
setosa 
setosa 
setosa 
setosa 
setosa 


th 
与 
0 
2 
1 
6 
9 


~ 心心 心 
EI 
DDDODDD 








Cn On 心心 心 
心口 人 ~ 号 


上 


列 
Ff$Sepal Length)) 


# 选择 Sepal Lengt 
head (select (gf 
i## Sepal Len 
间 # 1 

间 # 2 

## 3 

间 # 4 

## 5 

## 6 

# 或 者 

head (select (df, "Sepal Length")) 
i## Sepal Lengt 

间 # 1 
间 # 2 
## 3 
间 # 4 
## 5 
## 6 : 
# 过 滤 出 Sepal _ Length 小 于 5 的 行 

head (filter (df, df$Sepal Length <5) ) 

间 ## Sepal Length Sepal Wiath Petal Length Petal Wigdth Species 














必 


ORROAO、 
心口 Oo 上 口吃 





nn 
心口 人 ~ 号 

















## 工 4.9 3.0 1.4 0.2 setosa 
## 2 4 了 3;,2 1 0.2 setosa 
## 3 4.6 al Jj 0.2 setosa 
## 4 4.6 3a4d 1.4 0.3 setosa 
## 5 4.4 2.9 1.4 0.2 setosa 
## 6 4.9 3;1 .多 0.1 setosa 


























df <-as.DatarFrame (faithful) 

# 数 据 分 组 ,并 统计 每 组 出 现 的 个 数 

head (summarize (groupBy (df, df$waiting), count =n (df$waiting))) 
## waiting count 























## 工 70 4 
## 2 67 1 
## 3 69 2 
### 4 88 6 
## 5 49 5 
## 6 64 4 
# 对 结果 进行 排序 

















waiting counts <-summarize (groupBy (df, df$waiting), count =n (df$waiting)) 
head (arrange (waiting counts, desc(waiting CountsScount) ) ) 
## waiting count 





间 # 1 78 3 
### 2 83 4 
## 3 81 3 
### 4 了 2 
## 5 82 2 
## 6 79 0 





3. 对 SparkDataFrame 的 列 进行 运算 操作 














df$waiting secs <-df$waiting *60 





head (df) 
## eruptions waiting waiting secs 
## 1 3.600 79 4740 


### 2 1.800 54 3240 


### 3 35333 74 4440 


### 4 Zs283 62 3720 
## 5 4..533 85 5100 
## 6 2.883 S55 3300 


4.apply 系 列 函数 的 应 用 


dapply 消 数 类 似 于 R 语 言 的 apply 函 数 , 看 一 个 示例 。 

df <-as .DataFrame (iris) 

dfl <-dapply (df, function(x) { x[x[,1]>6,]},schema =schema (df)) 
head (collect (df1)) 

## Sepal Length Sepal Widtn Petal Length Petal Width Species 

















~ 






























































间 # 1 7.0 .2 4.7 1.4 versicolor 
间 # 2 6.4 332 4.5 .5 versicolor 
### 3 659 351 4.9 .5 versicolor 
间 # 4 (oes 2.8 4.6 .5 versicolor 
## 5 6.3 3.3 4.7 .6 versicolor 
## 6 6.6 2:59 4.6 .3 versicolor 
str (df1) 

## 'SparkDataFrame': 5 variables: 

## S$ Sepal Length: num 7 6.4 6.9 6.5 6.3 6.6 

## $ Sepal Width : num 3.2 3.2 3.1 2.8 3.3 2.9 

## S$ Petal Length: num 4.7 4.5 4.9 4.6 4.7 4.6 

## $ Petal Width : num 1.4 1.5 1.5 1.5 1.6 1.3 

## S$ Species : Chr "versicolor™" "versicolor™" "versicolor™" "versicolor" "versicolor™" "versicolor" 
dim (df1) 

## [1] 61 5 








其 他 函数 (如 dapplyCollect 函 数 、gapply 函 数 等 ) 的 使 用 方法 ， 请 自行 参考 相关 资料 ， 这 里 不 再 歼 述 。 


12.3 ”朴素 贝 叶 斯 分 类 器 


该 案例 数据 来 自 泰坦 尼克 号 人 员 存 活 情 况 ， 响 应 变量 为 Survived， 包 含 2 个 分 类 (yes，no) ， 特 征 变量 有 Sex、Age、Class (船舱 等 级 ) ,说明 如 下 : 


Class :0 = crew, 1 = first, 2 = second, 3 = third Age :1 = adult, 0 = child Sex :1 = male, 0 = female Survived :1 = yes 0 = no 


12.3.1 “数据 探查 


让 我 们 来 观察 一 下 数据 。 





library ("SparkR", lib.loc="/u01/bigdata/spark/R/1lib")# 加 载 sparkR 
六 # 
## Attaching package: 'SparkR' 






































## The following objects are masked from 'package:stats': 

## 

非 # cov, filter, lag, na.omit, predict, sd, var, window 

## The following objects are masked from 'package:base': 

## 

## as.data.frame, colnames, colnames<-, drop, endsWwith, 

非 # intersect, rank, rbind, sample, startsWith, subset, summary, 
非 # transform, union 

## Java ref type org.apache.spark.sqgl.SparkSession id 1 














## SParKkDataFrame [] 

# 从 hive 仓 库 加 载 数 据 

titanic <-sgql('select * from titanic') 
# 查看 SparkDataFrame 

head (titanic) 

## class age sex survived 

间 # 1 ] ] ] ] 
## 2 
### 3 
间 # 4 
## 5 
## 6 
dim(titanic) 

## [1] 220] 4 

# 查看 SparkDataFrame 

dim(titanic)# 查 看 数据 的 记录 数 以 及 维度 数量 
## [1] 220] 4 































































































12.3.2 ”对 原始 数据 集 进行 转换 














titanic df=as.data.frame (titanic) 

titanic <-as.qata.frame (table (titanic df)) 

colnames (titanic)<-paste0 (toupper (substring (colnames (titanic),1,1)),substring (colnames (titanic) ,2)) 
titanic temp<-titanic[titanic$Freq >0, -5] 

head (titanic temp) 
间 # Class Age Sex Survived 
0 
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12.3.3 ”查看 不 同 船舱 的 生还 率 差 异 





Jibrary (ggplot2) 
library (dplyr) 

闪 # 
## Attaching package: 'dplyr' 

## The following objects are masked from 'package:SparkR': 















































## 

非 # arrange between, collect, contains, count, cume qist， 

## dense rank, desc, distinct, explain, filter, first, group by, 
非 # intersect, lag, last, lead, mutate, n, n distinct, ntile, 

非 # percent rank, rename, row number, sample frac, select, sql, 
### summarize, union 

i## The following objects are masked from 'package:stats': 























间 ## filter, lag 

## The following objects are masked from 'package:base': 
六 # 

非 # intersect, setdiff, setequal, union 





tempdata<-aggregate (Freq~Classt+Survived,data = titanic,FUN = sum) 
ggplot (data = tempdata,mapping =aes (x = Class,y=Freq,fill=Survived))+geom bar(position ='dodge',stat ="'identity')+ylab ("number")+xlim(c ("1","2","3","0"))+theme (text=element 七 ex 











由 图 12-2 可 以 看 出 ， 头 等 舱 的 生还 率 最 高 ， 船 员 以 及 三 等 舱 的 生还 率 较 低 。 
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图 12-2 ”不 同 船舱 的 生还 率 差 异 





然后 ， 对 比 一 下 不 同性 别 之 间 的 生还 率 : 





tempdata<-aggregate (Freq~Sext+Survived,data = titanic,FUN = sum) 
ggplot (data = tempdata,mapping =aes (x = Sex,y=Freq,fill=Survived))+geom bar(position ='dodge',stat ='identity') 











由 图 12-3 可 知 ， 女 性 生还 率 较 高 。 
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图 12-3 不同 性别 的 生还 率 差 异 


最 后 再 看 看 不 同年 龄 段 的 生还 情况 : 


tempdata<-aggregate (Freq~AgetSurvived,data = titanic,FUN = Sum) 


ggplot (data = tempdata,mapping =aes (x = Age,y=Freq,1 











fill=Survived))+geom bar (position ='dodge',stat ='identity') 





如 图 12-4 所 示 ， 儿 童 的 生还 率 较 
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图 12-4 不 同年 龄 的 生还 率 差异 

12.3.4 ”转换 成 SparkDataFrame 格 式 的 数据 
titanicDF <-createDataFrame (titanic[ltitanic$Freq >0, -5]) 
nbDF <-titanicDF 
nbTestDF <-titanicDF 
# 使 用 spark.naiveBayes 方 法 ,训练 模型 
nbModel <-spark.naiveBayes (nbDF, Survived ~Class +Sex +Age) 

12.3.5 ”模型 概要 
summary (nbModel1) 
## Sapriori 
闪 # 0 
## [1,] 0.5769231 0.4230769 
闪 # 
## Stables 
## Class 3 Class 2 Class 1 Sex 0 Age 1 
## 1 0.3125 0:3125 有 :3125 :5 0:5625 
## 0 0.4166667 0.25 0525 Qs O75 

12.3.6 “预测 
nbPredictions <-predict (nbModel, nbTestDF) 
ShowDF (nbPredictions) 
非 # 十 -一 一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
## |Class|Age|Sex|Survived rawPrediction | probability|prediction | 
非 # 十 -一 一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
间 ## 3 ‘0. © 0|[-3.9824097993521hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.60062402496099nttp:// 
非 # 0| 1| 0 0|[-2.9426380107070http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.50318824507901nttp:// 
非 # 1| 1| 0 0|[-3.7310953710712nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.58003280993672nhttp:// 
## 2| 1| 0 0|[-3.7310953710712nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.58003280993672nhttp:// 
非 # Sn Ll 0|[-3.7310953710712nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.39192399049881http:// 
非 # 3| 0| 1 0|[-3.9824097993521nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.60062402496099nttp:// 
## Oi 3 1 0|[-2.9426380107070http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.50318824507901nttp:// 
非 # 1 1 1 0|[-3.7310953710712http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.58003280993672http:// 
## 2| 了 1 0|[-3.7310953710712nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.58003280993672nhttp:// 
## 有 | 1 0|[-3.7310953710712nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.39192399049881http:// 
非 # 1| 0| 0 1|[-3.9824097993521hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.76318223866790http:// 
非 # 2| 0| 0 1|[-3.9824097993521hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.76318223866790http:// 
间 ## 3| 0| 0 [-3.9824097993521http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.60062402496099nttp:// 
非 # 0| 1| 0 1|[-2.9426380107070http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.50318824507901http:// 
## 1 1 0 1|[-3.7310953710712http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.58003280993672nhnttp:// 
## 2| 1|. :9 1|[-3.7310953710712http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.58003280993672nttp:// 
非 # 3| 1| 0 1|[-3.7310953710712nhnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.39192399049881http:// 
非 # 1| 0| 1 1|[-3.9824097993521http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.76318223866790http:// 
非 # 吕 人 | 1|[-3.9824097993521hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.76318223866790http:// 
## 3 “0 1|[-3.9824097993521hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...|[0.60062402496099nttp:// 
非 # 十 -一 一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 
## only showing top 20 rows 


12.3.7 


评估 模型 





nbPredictions<-as.data.frame (nbPredictions) 
# 计算 混淆 矩阵 


ct<-table (titanic temp$SurvivedqrnbPredictionsSpreqiction) 




































































## 0 1 

## 0 2 8 

## 1 2 12 

# 计算 准确 率 
(ct[1,1]+ct[2,2])/sum(ct) 
## [ 0.:5833333 

# 计算 召回 率 

ct[2;,21/ (et[2,21+ct[2;,1]) 
## [1] 0.8571429 

# 计算 精准 率 

ct[2,2]/ (ct[2,2]+ct[1,2]) 
## [1] 0.6 











12.4 小结 


本 章 主要 讲解 了 如 何 使 用 SparkR 组 件 的 问题 ，SparkR 给 R 开 发 人 员 提 供 很 多 AP1， 利 用 这 些 API， 开 发 人 员 就 可 以 通过 R 语 言 操 作 Spark， 把 用 R 编 写 的 代码 放 在 Spark 这 个 大 数据 技术 平台 上 运行 ， 这 样 
可 以 使 R 不 但 可 以 操作 HDFS 或 Hive 中 的 数据 ， 而 且 可 以 使 用 Spark 分 布 式 基 于 内 存 的 架构 。 


第 13 草 ”使 用 Spark Streaming 构 建 在 线 学 习 模 型 


前 面 我 们 介绍 的 这 些 算法 ， 一 般 基于 一 个 或 几 个 相对 固定 的 文件 ， 以 这 样 的 数据 为 模型 处 理 的 源 数据 是 固定 的 ， 这 样 的 数据 或 许 很 大 、 很 多 。 训 练 或 测试 都 是 建立 在 这 些 固定 数据 之 上 ， 当 然 ， 测 试 


时 ， 可 能 会 取 这 个 数据 源 之 外 的 数据 ， 如 新 数据 或 其 他 数据 等 。 训 练 模型 的 数据 一 般 是 相对 固定 的 ， 这 样 的 机 器 学 习 的 场景 是 很 普遍 的 。 


~ 


但 实际 环境 中 ， 还 有 其 他 一 些 场景 ， 如 源 数据 经 常 变换 ， 就 像 流水 一 样 ， 时 刻 在 变换 着 ， 例 如 很 多 在 线 数据 、 很 多 日 志 数 据 等 。 面 对 这 些 数 据 的 学 习 我 们 该 如 何 处 理 呢 ? 
这 个 问题 实际 上 属于 流水 计算 问题 ， 目 前 解决 这 类 问题 主要 使 用 Spark Streaming、Storm、Samza 等 。 这 章 我 们 主要 介绍 Spark streaming。 

本 章 主要 包括 以 下 内 容 : 

. 介绍 Spatk Streaming; 


. Spatk Streaming 入 门 实例 ; 


13.1 Spark Streaming 简 介 


Spark Streaming 是 Spark 核 心 API 的 一 个 扩展 ， 可 以 实现 高 吞吐 量 的 、 有 具备 容错 机 制 的 实时 流 数据 的 处 理 。 支 持 从 多 种 数据 源 获取 数据 ， 包 括 Kafk、Flume、Twitter、ZeroMQ、Kinesis 以 及 TCP 
sockets， 从 数据 源 获取 数据 之 后 ， 可 以 使 用 诸如 map、reduce、join 和 window 等 高 级 函数 进行 复杂 算法 的 处 理 。 最 后 还 可 以 将 处 理 结 果 存 储 到 文件 系统 ， 数 据 库 和 现场 仪表 盘 。 在 “One Stack rule 
them all” 的 基础 上 ， 还 可 以 使 用 Spark 的 其 他 子 框架 ， 如 集群 学 习 、 图 计算 等 ， 对 流 数 据 进 行 处 理 。 


13.1.1 _ Spark Streaming 常 用 术语 


在 简介 Spark Streaming 前 ,我 们 先 简单 介绍 Streaming 的 一 些 常用 术语 。 

. 离散 流 (discretized stteam) 或 DStteam: 这 是 Spatk Stteaming 对 内 部 持续 的 实时 数据 流 的 抽象 描述 ， 即 我 们 处 理 的 一 个 实时 数据 流 ， 在 Spatk Streaming 中 对 应 于 一 个 DStream 实 例 。 

. 批 数据 (batch data) : 这 是 化 整 为 零 的 第 一 步 ， 将 实时 流 数 据 以 时 间 片 为 单位 进行 分 批 ， 将 流 处 理 转化 为 时 间 片 数据 的 批 处 理 。 随 着 持续 时 间 的 推移 ， 这 些 处 理 结果 就 形成 了 对 应 的 结果 数据 流 了 。 
. 时 间 片 或 批 处 理 时 间 | 间隔 (batch intetval) : 这 是 人 为 地 对 流 数据 进行 定量 的 标准 ， 以 时 间 片 作为 我 们 拆 分 流 数据 的 依据 。 一 个 时 间 片 的 数据 对 应 一 个 RDD 实 例 。 

. 窗口 长 度 (window length) : 一 个 窗口 覆盖 的 流 数据 的 时 间 长 度 。 必 须 是 批 处 理 时 间 间隔 的 倍数 ， 

. 滑动 时 间 间 隔 : 前 一 个 窗口 到 后 一 个 窗口 所 经 过 的 时 间 长 度 。 必 须 是 批 处 理 时 间 间 隔 的 倍数 


. Input DStream: 一 个 input DStteam 是 一 个 特殊 的 DStteam， 将 Spatk Streaming 连 接 到 一 个 外 部 数据 源 来 读 取 数 据 。 


13.1.2 Spark Streaming 处 理 流程 


Spark Streaming 处 理 的 数据 流 图 如 图 13-1 所 示 。 


Spark 


. 
Streaming 





图 13-1 Spatk Stteaming 计 算 过 程 


Spark 的 各 个 子 框架 ， 都 是 基于 核心 Spark 的 ，Spark Streaming 在 内 部 的 处 理 机 制 是 ， 接 收 实时 流 的 数据 ， 并 根据 一 定 的 时 间 间 隔 拆 分 成 一 批 批 的 数据 ， 然 后 通过 Spark Engine 处 理 这 些 批 数 据 (请 参 
考 图 13-2) ， 最 终 得 到 处 理 后 的 一 批 批 结果 数据 。 


成 一 批 批 人 
0 


; Streaming 。 Engine 


图 13-2 ”Spatk Sttreaming 按 批 处 理 





DStream (Discretized Stream) 作为 Spark Streaming 的 基本 抽象 ， 它 代表 持续 性 的 数据 流 。 这 些 数据 流 既 可 以 通过 外 部 输入 源 来 获取 ， 也 可 以 通过 现 有 的 Dstream 的 transformation 操 作 来 获得 。 
在 内 部 实现 上 ，DStream 由 一 组 时 间 序 列 上 连续 的 RDD 来 表示 。 每 个 RDD 都 包含 了 自己 特定 时 间 间 隔 内 的 数据 流 。DStream 中 在 时 间 轴 下 生成 离散 的 RDD 序 列 如 图 13-3 所 示 。 


RDDOtmel RDDOtme2 RDDtme3 RDDOtme4 


从 时 间 点 0 到 从 时 间 点 1 到 从 时 间 点 2 到 从 时 间 点 3 到 


DStream-= -= 


1 之 间 的 数据 2 之 间 的 数据 3 之 间 的 数据 4 之 间 的 数据 





图 13-3 ”DStream 内 部 是 RDD 序 列 


对 应 的 批 数 据 ， 在 Spark 内 核对 应 一 个 RDD 实 例 ， 因 此 ， 对 应 流 数据 的 DStream 可 以 看 成 是 一 组 RDDs， 即 RDD 的 一 个 序列 。 通 俗 点 理解 的 话 ， 在 流 数据 分 成 一 批 一 批 后 ， 通 过 一 个 先进 先 出 的 队列 ， 然 
后 Spark Engine 从 该 队列 中 依次 取出 一 个 个 批 数 据 ， 把 批 数 据 封 六 成 一 个 RDD， 然 后 进行 处 理 。 


13.2 ”Dstream 操 作 


RDD 有 很 多 操作 和 和 转换， 与 RDD 类 似 ，DStream 也 提供 了 自己 的 一 系列 操作 方法 ， 本 节 主 要 介绍 如 何 操作 DStream， 包 括 输 入 、 转 换 、 修 改 状 态 及 输出 等 。 


13.2.1 Dstream 输 入 


Spark Streaming 提 供 两 种 类 型 的 流 式 输 入 数据 源 : 
“ 基础 输入 源 : 能 直接 应 用 于 StreamineContext API 输 入 源 。 例 如 ， 文 件 系 统 、Socket ( 套 接 字 ) 连接 和 Akka actors; 


. 高 级 输入 源 : 能 应 用 于 特定 工具 类 的 输入 源 ， 如 Kafka、Flume、Kinesis、Twittet 等 ， 使 用 这 些 输 入 源 需 要 导入 一 些 额 外 依赖 包 


13.2.2 ”Dstream 转 换 


DStream 转 换 操 作 是 在 一 个 或 多 个 DStream 上 创建 新 的 DStream。DStream 支 持 多 种 转换 ， 详 细 请 参考 表 13-1 所 示 的 内 容 。 


表 13-1 Dstream 转 换 


转换 含义 





map (func) 源 DStream 的 每 个 元 素 通过 因数 func 返回 一 个 新 的 DStream 
类 似 与 map 操作 ， 不 同 的 是 每 个 输入 元 对 可 以 被 映射 出 0 或 者 更 多 的 输 
flatMap (func) 
出 元 素 
在 源 DSTREAM 上 经 过 func 图 数 ， 返 回 仅 为 true 的 元 素 ， 最 后 返回 一 
filter (func) 
个 新 的 DStream 
repartition (numPartitions) 通过 参数 numPartitions 值 来 修改 DStream 的 平行 程度 
union (otherStream ) 返回 一 个 包含 源 DStream 与 其 他 DStream 的 元 素 的 一 个 新 DStream 
count() 统计 源 Dstream 中 RDD 的 元 素 个 数 


使 用 也 数 func (有 两 个 输入 参数 ， 一 个 输出 参数 ) 将 源 DStream 中 每 个 
RDD 的 元 素 进 行 聚合 操作 ， 返 回 一 个 单元 系 RDD 的 新 DStream 
计算 DStream 中 每 个 RDD 内 的 元 素 出 现 的 频次 并 返回 新 的 
countByValue() DStream[ (K，Long) ]， 其 中 是 RDD 中 元 素 的 类 型 ，Long 是 元 素 出 现 
的 频次 
当 调 用 一 个 类 型 为 (K，V) 键 值 对 的 Dstream 时 ， 返 回 一 个 新 的 类 型 为 
(KK,，V) 键 值 对 的 DStream, 其 中 键 K 一 般 不 变 ， 每 个 键 的 值 V 都 是 使 用 聚 
合 冰 数 func 汇总 。 注 意 : 默认 情况 下 ， 使 用 Spark 的 默认 并 行 度 提 交 任 务 ， 
可 以 通过 配置 numTasks 设置 不 同 的 并 行 任务 数 
当 调 用 类 型 分 别 为 (KEK，V) 和 (KK，W) 键 值 对 的 2 个 DStream 时 ， 返 
回 一 个 类 型 为 (K,(V，W)) 键 值 对 的 一 个 新 DStream 
当 调 用 的 两 个 分 别 含 有 (K,，V) 和 (K，W) 键 值 对 的 DStream 时 ， 返 
回 一 个 (K，Seq[V]，Seq[W]) 类 型 的 新 的 DStream 
通过 对 源 DStream 的 每 个 RDD 应 用 一 个 RDD-to-RDD 哨 数 ， 人 返回 一 个 
新 的 DStream， 文 持 在 新 的 Dstream 上 做 任意 RDD 操作 
反 ee DStream, 其 中 每 个 键 的 状态 根据 键 的 前 一 个 状态 和 键 
updateState ByKey (func) 的 新 值 应 国 数 func 后 进行 更 新 。 这 个 方法 可 以 被 用 来 维持 每 个 键 的 
drs 


reduce (func) 


reduceByKey (func, [numTasks]) 


join (otherStream, [numTasks]) 


cogroup (otherStream, [numTasks]) 


transform (func) 


13.2.3 ”Dstream 修 改 
Spark Streaming 除 提供 一 些 基本 操作 ， 还 提供 一 些 状态 操作 。 状 态 操作 对 进行 数据 多 批 次 操作 ， 包 括 基于 窗口 (window) 的 操作 和 updatestateByKey (func) 操作 等 ， 表 13-2 所 示 为 主要 状态 操 
作 。 
表 13-2 Dstream 修 改 
转换 含义 
window (windowLength, slideInterval) 返回 一 个 基于 源 DStream 窗口 化 的 新 DStream 
countByWindow (windowLength, slideInterval) | ”返回 基于 消 动 和 窗口 的 DStream 中 的 元 系 量 


reduceByWindow (func，windowLength, | 基于 滑动 窗口 对 源 DStream 中 的 元 素 进 行 聚 合 操作 ， 得 到 一 个 
slideInterval) 新 的 DStream 





转换 含义 
reduceByKeyAndWindow (func, windowLength, | ”基于 滑动 窗口 对 (K, V) 键 值 对 的 DStream 的 值 按 K 使 用 聚合 ， 
slideInterval，[numTasks]) 函数 func 进行 聚合 操作 ， 得 到 一 个 新 的 DStream 
reduceByKeyAndWindow (func，invFunc, | ”一 个 更 高 效 的 reduceByKkeyAndWindow， 每 个 窗口 的 Reduce 
windowLength, slideInterval, [numTasks]) 值 是 通过 先前 窗口 的 Reduce 值 增 量 计算 获取 的 


基于 滑动 窗口 计算 源 DStream 中 每 个 RDD 内 每 个 元 系 出 现 的 
频次 并 返回 一 个 新 的 DStream[ (K， Long) ]， 其 中 KK 是 RDD 中 
元 素 的 类 型 ，Long 是 元 素 频 率 


countByValueAndWindow ( windowLength ， 


slideInterval, [numTasks]) 


13.2.4 ”Dstream 输 出 
Spark Streaming 人 允许 DStream 的 数据 输出 到 外 部 系统 ， 如 数据 库 、 文 件 系 统 等 。 由 于 输出 操作 使 转换 操作 后 的 数据 可 以 通过 外 部 系统 使 用 ， 同 时 输出 操作 触发 所 有 DStream 的 转换 操作 的 实际 执行 
(类 似 于 RDD 操 作 ) 。 表 13-3 列 出 了 目前 主要 的 输出 操作 。 


表 13-3 Dstream 输 出 


转换 描述 

print() 在 Driver 中 打印 出 DStream 中 数据 的 前 10 个 元 素 

将 DStream 中 的 内 容 以 文本 的 形式 保存 ， 其 中 每 批 次 处 理 间隔 内 产生 的 文 
件 以 prefix-TIME IN _MS[.suffix] 的 方式 命名 

将 DStream 中 的 内 容 按 对 象 序 列 化 并 且 以 SequenceFile 的 格式 保存 。 其 中 
每 批 次 处 理 间隔 内 产生 的 文件 以 prefix-TIME IN_MS[.suffix] 的 方式 命名 

将 DStream 中 的 内 容 以 文本 的 形式 保存 为 Hadoop 文件 ， 其 中 每 批 次 处 理 间 
隔 内 产生 的 文件 以 prefix-TIME IN _MS[.suffix] 的 方式 命名 

最 基本 的 输出 操作 ， 将 fonc 遇 数 应 用 于 DStream 中 的 RDD 上 ， 这 个 操作 
会 输出 数据 到 外 部 系统 ， 比 如 保存 RDD 到 文件 或 者 网 络 数据 库 等 


saveAsTextFiles (prefix, [suffix]) 


saveAsObjectFiles (prefix, [suffix]) 


saveAsHadoopFiles(prefix, [suffix]) 


foreachRDD (func) 


13.3 Spark Streaming 应 用 实例 


本 章 前 几 节 我 们 介绍 了 Spark Streaming 的 一 些 基本 原理 及 主要 操作 ， 本 节 我 们 通过 一 个 实例 来 进一步 理解 Spark Streaming 的 原理 及 操作 ， 这 个 实例 为 在 线 统计 Linux 一 个 终端 工具 NetCat (简称 为 
NC) 手工 发 送 文 本 ，Spark 通 过 tcp socket 读 取 文 本 、 使 用 Spark SQL 统 计 词 频 ， 然 后 用 print 输 出 统计 结果 。 使 用 scala 进 行 词 频 统 计 ， 大 家 可 参考 Spark 官 网 : http://spark.apache.org/。 


这 里 我 们 以 Spark 交 互 式 编程 方式 进行 ， 需 要 局 动 两 个 客户 端 或 进程 ， 一 个 客户 端 启 动 nc， 另 一 个 启动 Spark shell。 


先 启动 nc， 端 口 为 9999。 





nc -lk 9999 


然后 ， 以 本 地 方式 启动 spark shell。 





// 导 入 类 或 包 

import org.apache.spark.SparkConf 
import org.apache.spark.rdd.RDD 
import org.apache.spark.sql.SparkSession 

import org.apache.spark.storage.StorageLevel 

import org.apache.spark.streaming. {Seconds, StreamingContext, Time} 
import spark.implicits. 

















// 创建 一 个 间隔 时 间 为 3 秒 的 context 

val ssc = new StreamingContext (sc, Seconds (3)) 
// 创建 一 个 socket stream, 基 于 master:9999 

val lines = ssc.socketTextStream("master",9999) 
val words = lines.flatMap( .split(" ")) 

// 为 便于 使 用 SQL 进行 统计 ,把 DStream 的 RDD 转 换 为 DataFrame。 

// 把 RDD[String] 转换 为 RDD[case class], 最 后 转换 为 DataFrame 
case class Record (word: String) 
















































































words.foreachRDD { (rdd:RDD[String], time:Time) => 
val wordsDataFrame = rdd.map(w => Record (w) ) .toDF () 


// 创建 一 个 临时 视图 

wordsDataFrame .createOrReplaceTempView ("words") 

// 使 用 SQL 进行 统计 

val wordCountsDataFrame = spark.sgql ("select word, count(*) as total from words group by word") 
println (Ss"========= $time = 一 = 一 一 一 一 一 一 J 

wordCountsDataFrame. show () 
































ssc.start() 
ssc.awaitTermination () 








在 启动 了 nc 的 界面 输入 : 


OK ok mp py py py 


在 spark shell 界 面 ， 可 以 看 到 如 下 输出 : 














二 三 1494714360000 ms ========= 
word|tota 

m 

ok 2 

p 

py 3 














13.4 ”Spark Streaming 在 线 学 习 实例 


前 面 我 们 简单 介绍 一 个 利用 nc 产生 文本 数据 ，Spark Streaming 实 时 统计 词 频 的 一 个 实例 ， 通 过 这 个 例子 ， 我 们 对 Streaming 有 个 大 致 了 解 ， 它 的 源 数据 可 以 是 实时 产生 、 实 时 变化 的 ， 基 于 这 个 数据 
流 ，Spark Streaming 能 实时 进行 统计 词 频 信息 ， 并 输出 到 界面 。 


三 


~ 


除了 统计 词 频 ， 实 际 上 Spark Streaming 还 可 以 做 在 线 机 器 学 习 工 作 ， 目 前 Spark Streaming 支 持 Streaming Linear Regression，Streaming KMeans 等 ， 这 节 我 们 模拟 一 个 在 线 学 习 线 性 回归 的 算 






































法 ， 源 数据 为 多 个 文件 ， 首 先 在 一 个 文件 中 训练 模型 ， 然 后 在 新 数据 上 进行 调整 模型 ， 对 新 数据 进行 预测 等 。 
// 导 入 需要 的 类 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.feature.StandardScaler 
import breeze.1linalg.DenseVector 
import org.apache.spark.mllib. regression. LabeledPoint 
import org.apache.spark.mllib.regression.StreamingLinearRegressionWithSGD 
import org.apache.spark.streaming. 
import org.apache.spark.streaming.StreamingContext. 
// 交 互 式 编 程 


val ssc = new StreamingContext (sc, Seconds (10)) 
val stream = ssc.textFileStream("file:///home/hadoop/data/streaming/traindir") 

















val NumFeatures = 11 

val zeroVector = DenseVector.zeros[Double] (NumFeatures) 
val model = new StreamingLinearRegressionWithSsGD() 
.SetInitialWeights (Vectors .dense (zeroVector .data)) 
.SetNumIterations (20) 

.SetRegParam (0.8) 

.SetStepSize (0.01) 























// 创 建 一 个 含 标 签 的 数据 流 

val labeledStream stream.map { line => 

val split = line.split(";") 

val y = split(11) .toDouble 

val features=split.slice(0,11) .map( .toDouble) 

LabeledPoint (label y, features Vectors .dense (features)) 


} 
// 在 数据 流 上 训练 测试 模型 。 
model .trainon (labeledStream) 
model .predictOnValues (labeledStream.map (lp => (lp.label, lp.features))) .print() 
// 启 动 Spark Streaming 
ssc.start () 
ssc.awaitTermination () 






















































































13.5 ”小 结 


前 几 章 主要 介绍 了 Spark ML 对 批量 数据 或 离线 数据 的 分 析 和 处 理 ， 本 章 主要 介绍 Spark Streamin 对 在 线 数 据 或 流 式 数据 的 处 理 及 分 析 。 首 先 对 Spark Streaming 的 一 些 概念 、 输 入 源 、Dstream 的 一 些 
转换 、 修 改 、 输 出 作 了 简单 介绍 ， 然 后 ， 通 过 两 个 实例 把 这 些 内 容 结合 在 一 起 ， 进 一 步 说 明 Spark streaming 在 线 统计 、 在 线 学 习 的 具体 使 用 。 


第 14 章 TensorFlowOn9parki 详 解 


前 面 我 们 介绍 了 Spark MLIib 的 多 种 机 器 学 习 算 法 ， 如 分 类 、 回 归 、 聚 类 、 推 荐 等 ，spark 目 前 还 缺乏 对 神经 网 络 、 深 度 学 习 的 足够 支持 ， 但 近 几 年 市 场 对 神经 网 络 ， 尤 其 对 深度 学 习 热 情 高 涨 ， 成 了 当 
下 很 多 企业 的 研究 热点 ， 缺 失 神经 网 络 的 支持 ， 这 或 许 也 算是 Spark MLlib 尚 欠 不 足 之 处 吧 。 


不 过 好 消息 是 TensorFlow 这 个 深度 学 习 框 架 ， 已 经 有 了 Spark 接 口 ， 即 TensorFlowOnSpark。TensorFlow 是 目前 很 热门 的 深度 学 习 框 架 ， 是 Google 于 2015 年 11 月 9 日 开源 的 第 二 代 深 度 学 习 系 统 ， 也 
是 AlphaGo 的 基础 程序 。 


本 章 我 们 将 介绍 深度 学 习 最 好 框架 TensorFlow 及 TensorFlowOnSpark， 具 体 包 括 : 
. TensorFlow 简 介 。 

.TensotFlow 实 现 卷 积 神 经 网 络 。 

:分布 式 TensotFlow。 

TensorFlowOnSpatk 架 构 。 


.TensorFlowOnSpatk 实 例 。 


14.1 TensorFlow 人 简介 


TensorFlow 是 谷歌 基于 DistBelief 进 行 研发 的 第 二 代 人 工 智 能 学 习 系 统 ， 采 用 数据 流 图 (data flow graphs) ， 用 于 数值 计算 的 开源 软件 库 。 节 点 (nodes) 在 图 中 表示 数学 操作 ， 图 中 的 线 (edges) 
则 表示 在 节点 间 相 互联 系 的 多 维 数 据 数组 ， 即 Tensor ( 张 量 ) ， 而 Flow ( 流 ) 意味 着 基于 数据 流 图 的 计算 ，TensorFlow 为 张 量 从 流 图 的 一 端 流动 到 另 一 端 计 算 过 程 。TensorFlow 不 只 局 限于 神经 网 络 ， 其 
数据 流 式 图 支持 非常 自由 的 算法 表达 ， 当 然 也 可 以 轻松 实现 深度 学 习 以 外 的 机 器 学 习 算 法 。 事 实 上 ， 只 要 可 以 将 计算 表示 成 计算 图 的 形式 ， 就 可 以 使 用 TensorFlow。 


TensorFlow 可 被 用 于 语音 识别 或 图 像 识别 等 多 项 机 器 深度 学 习 领 域 ，TensorFlow 一 大 亮点 是 支持 异 构 设备 分 布 式 计算 ， 它 能 够 在 各 个 平台 上 自动 运行 模型 ， 从 手机 、 单 个 CPU/GPU 到 成 百 上 干 GPU 卡 
组 成 的 分 布 式 系统 。 


14.1.1 TensorFlow 的 安装 


安装 TensorFlow， 因 本 环境 的 python2.7 采 用 anaconda 来 安装 ， 故 这 里 采用 conda 管 理工 具 来 安装 TensorFlow， 目 前 conda 默 认 安 装 版 本 为 TensorFlow 1.1。 








conda jinstall tensorflow 


验证 安装 是 否 成 功 ， 可 以 通过 导入 TensorFlow 来 检验 。 


启动 ipython (或 python) : 








import tensorflow as tf 


14.1.2 TensorFlow 的 发 展 

2015 年 11 月 9 日 谷歌 开源 了 人 工 智能 系统 TensorFlow， 并 成 为 2015 年 最 受 关注 的 开源 项 目 之 一 。TensorFlow 的 开源 大 大 降低 了 深度 学 习 在 各 个 行业 中 的 应 用 难度 。TensorFlow 的 近期 里 程 碑 事 件 主要 
有 : 

2016 年 04 月 : 发 布 了 分 布 式 TensorFlow 的 0.8 版 本 ， 把 DeepMind 模 型 迁移 到 TensorFlow; 

2016 年 06 月 : TensorFlow v0.9 发 布 ， 改 进 了 移动 设备 的 支持 ; 

2016 年 11 月 : TensorFlow 开 源 一 周年 ; 


2017 年 2 月 : TensorFlow v1.0 发 布 ， 增 加 了 Java、Go 的 APl， 以 及 专用 的 编译 器 和 调试 工具 ， 同 时 TensorFlow 1.0 引 入 了 一 个 高 级 API， 包 含 tf.layers、tf.metrics 和 tf.Ilosses 模 块 。 还 宣布 增加 了 一 个 
新 的 tf.keras 模 块 ， 它 与 男 一 个 流行 的 高 级 神经 网 络 库 Keras 完 全 兼容 。 


2017 年 4 月 : TensorFlow v1.1 发 布 ， 为 Windows 添 加 Java APlI 支 持 ， 添 加 tf.spectral 模 块 ，Keras 2 APl 等 ; 


2017 年 6 月 : TensorFlow v1.2 发 布 ， 包 括 API 的 重要 变化 、contrib API 的 变化 和 Bug 修 复 及 其 他 改变 等 


14.1.3 TensorFlow 的 特点 


:高度 的 灵活 性 : TensorFlow 采 用 数据 流 图 ， 用 于 数值 计算 的 开源 软件 库 。 只 要 计算 能 表示 为 一 个 数据 流 图 ， 你 就 可 以 使 用 TensorFlow。 
“ 真正 的 可 移植 性 : TensorFlow 在 CPU 和 GPU 上 运行 ， 可 以 运行 在 台式 机 、 服 务 器 、 云 服务 器 、 手 机 移动 设备 、Docket 容 器 里 等 等 。 


. 将 科研 和 产品 联系 在 一 起 : 过 去 如 果 要 将 科研 中 的 机 器 学 习 想 法 用 到 产品 中 ， 需 要 大 量 的 代码 重 写 工 作 。TensotFlow 改 变 了 这 一 点 。 使 用 TensorFlow 可 以 让 应 用 型 研究 者 将 想法 迅速 运用 到 产品 中 ， 也 
可 以 让 学 术 性 研究 者 更 直接 地 彼此 分 享 代码 ， 产 品 团队 则 用 TensotFlow 来 训练 和 使 用 计算 模型 ， 并 直接 提供 给 在 线 用 户 ， 从 而 提高 科研 产 出 率 。 


自动 求 微分 : 基于 梯度 的 机 器 学 习 算 法 会 受益 于 TensorFlow 自 动 求 微分 的 能 力 。 使 用 TensorFlow， 只 需要 定义 预测 模型 的 结构 ， 将 这 个 结构 和 目标 函数 (objective function) 结合 在 一 起 ， 并 添加 数 


1 


据 ，TensorFlow 将 自动 为 你 计算 相关 的 微分 导数 。 


“ 多 语言 支持 : TensotFlow 有 一 个 合理 的 C++ 使 用 界面 ， 也 有 一 个 易 用 的 Python 使 用 界面 来 构建 和 执行 你 的 graphs。 你 可 以 直接 写 Python/C++ 程 序 ， 也 可 以 用 交互 式 的 IPython 界 面 来 用 TensotFlow 尝 试 这 


些 想法 ， 也 可 以 使 用 Go、Java、Lua、Javasctipt 或 者 是 R 等 语言 。 
性 能 最 优化 : 如 果 你 有 一 个 32 个 CPU 内 核 、4 个 GPU 显卡 的 工作 站 ， 想 要 将 你 工作 站 的 计算 潜能 全 发 挥 出 来 ， 由 于 TensofFlow 给 予 了 线程 、 队 列 、 异 步 操作 等 以 最 佳 的 支持 ，TensofFlow 让 你 可 以 将 你 
手边 硬件 的 计算 潜能 全 部 发 挥 出 来 。 你 可 以 自由 地 将 TensorFlow 图 中 的 计算 元 素 分 配 到 不 同 设备 上 ， 充 分 利用 这 些 资源 。 
表 14-1 所 示 为 TensorFlow 的 一 些 主要 技术 特征 。 


表 14-1 TensorFlow 的 主要 技术 特征 


编辑 模型 Dataflow-like model ( 数据 流 模型 ) 


语言 Python、C++、Go、Rust、Haskell、Java (还 有 非 官 方 的 JavaScript、R 等 ) 
部 车 Code once 、run everywhere (一 次 编写 ， 各 处 运行 ) 


计算 资源 | CPU(Linux、Mac、Windows、Android，iOS)GPU(Linux 、Mac、Windows)TPU(Tensor Processing Unit) 
实现 方式 | Local Implementation (单机 实现 ) Distributed Implementation (分 布 式 实 现 ) 

平台 文 持 | Google Cloud Platform (谷歌 云 平台 ) Hadoop File System (Hadoop 分 布 式 文件 系统 ) 

数学 表达 | Math Graph Expression (数学 计算 图 表达 ) Auto Differentiation ( 目 动 微分 ) 


14.1.4 TensorFlow 编 程 模型 


TensorFlow 是 一 个 采用 数据 流 图 (Data Flow Graph) ， 用 于 数值 计算 的 开源 软件 库 。 它 用 结 点 (node) 和 边 (edge) 的 有 向 无 环 图 (DAG) 来 描述 数学 计算 。 节 点 一 般 用 来 表示 施加 的 数学 操作 
(tf.Operation) ， 但 也 可 以 表示 数据 输入 (feed in) 的 起 点 /输出 (push out) 的 终点 ， 或 者 是 读 取 / 写 入 持久 变量 (persistent variable) 的 终点 。 边 表示 节点 之 间 的 输入 /输出 关系 。 这 些 数据 “ 边 ” 可 
以 输 运 “size 可 动态 调整 ”的 多 维 数据 数组 ， 即 “ 张 量 ” (tensor) 。 张 量 从 图 中 流 过 的 直观 图 像 是 这 个 工具 取 名 为 “TensorFlow” 的 原因 。 


TensorFlow 如 何 工作 ? 我 们 通过 一 个 简单 的 实例 进行 说 明 ， 为 计算 x+y， 你 需要 创建 如 图 14-1 所 示 的 数据 流 图 。 





A= Xty 


图 14-1 计算 x+y 的 数据 流 图 


数据 流 图 (图 14-1) 的 详细 步骤 如 下 : 


1) 定义 Xx=[1，3，5]，y= 世 ，4，7]， 并 创建 恒定 的 张 量 : 








import tensorflow a 
x = tf.constant ([1,3, 
y = tf.constant ([2,4, 























we 





2) 定义 操作 : 








op = tf.add (x,y) 


3) 张 量 和 操作 都 有 了 ， 接 下 来 就 是 创建 图 : 








my graph = tf.Graph () 


Os 这 一 步 不 是 必须 的 ， 在 创建 回话 时 ， 系 统 将 自动 创建 一 个 默认 图 。 


4) 为 了 运行 这 图 你 将 需要 创建 一 个 回话 (tf.Session) ， 一 个 tf.Session 对 象 封装 了 操作 对 象 执行 的 环境 ， 为 了 做 到 这 一 点 ， 我 们 需要 定义 在 会 话 中 将 要 用 到 哪 一 张 图 : 








with tf.Session(graph=my graph) as sess: 
六 




















x = tf.constant([1,3,5]) 
y = tf.constant ([2,4,7]) 











op = tf.add (x,y) 


5) 想 要 执行 这 个 操作 ， 要 用 到 jtf.Session.run () 这 个 方法 : 


import tensorflow as tf 



































my graph = tf.Graph () 

with tf.Session(graph=my graph) as sess: 
x = tf.constant([1,3,5]) 

y = tf.constant ([2,4,7]) 

op = tf.addq (x,y) 

result = sess.run (fetches=op) 











print (result) 
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上 面 我 们 通过 简单 的 示例 ， 说 明了 TensorFlow 的 运行 方式 ， 其 中 add 为 运算 操作 ， 类 似 的 操作 还 有 很 多 ， 如 表 14-2 所 示 为 TensorFlow 内 建 的 常用 运算 操作 。 


表 14-2 TensorFlow 内 建 的 运算 操作 


类 型 示例 
数学 运算 Add、Sub、Mul、Div、Exp、Log 、Greater 、Less、Equal 
回 量 运算 Concat、 Slice、 Splot、Constant、Rank、Shape、Shuffle 
矩阵 运算 Matmul 、 MatrixInverse 、MatrixDeterminant 
市 状态 的 运算 Variable 、Assign 、AssignAdd 
神经 网 络 组 件 SoftMax 、Sigmoid 、ReLU 、Convolution2D 、MaxPooling 
人 存储、 恢复 Save 、Restore 
队列 及 同步 运算 Enqueue 、Dequeue 、MutexAcquire 、MutexRelease 
控制 张 量 流 动 Merge、 Switch、 Enter、 Leave、Nextlteration 


从 上 例 我 们 可 以 看 到 TensorFlow 有 不 少 概 念 ， 这 些 概念 或 名 称 有 些 我 们 在 其 他 系统 中 看 到 或 使 用 过 ， 但 在 TensorFlow 架 构 中 ， 很 多 概念 的 用 途 并 不 一 样 ， 表 14-3 总 结 了 一 些 主要 的 概念 ， 便 于 大 家 参 
考 。 


表 14-3 TensorFlow 常 用 概念 








类 型 用 途 

. 图 必须 在 称 之 为 “会 话 ” 的 上 下 文中 执行 。 会 话 将 图 的 op 分 发 到 诸如 CPU 或 

Session 、 
者 GPU 上 计算 
Graph 必须 在 Session 中 启动 
tensor 数据 类 型 之 一 ， 代 表 多 维 数 组 
吕 作 图 中 的 节点 被 称 之 为 op， 一 个 op 获得 0 或 者 多 个 Tensor， 执行 计算 ， 产生 0 
P 人 或 者 多 个 Tensor 

Variable 变量 数据 类 型 之 一 ， 运 行 过 程 中 可 以 被 改变 ， 用 于 维护 状态 
feed 赋值 为 op 的 tensor 赋值 
fetch 取 值 从 op 的 tensor 中 取 值 
Constant 常量 数据 类 型 之 一 ， 不 可 变 


14.1.5 TensorFlow 常 用 函数 


TensorFlow 的 函数 有 很 多 ， 类 别 各 不 相同 ， 如 数据 类 型 转换 、 变 


表 14-4 TensofFlow 常 用 函数 

















量 定义 、 激 活 函 数 、 卷 积 函 数 等 ， 这 里 我 们 选择 一 些 常 用 或 本 章 后 续 用 到 的 一 些 函 数 ， 供 大 家 参考 ， 如 表 14-4 所 示 。 


类 别 六” 数 含 丸 
竺 会 话 中 求 tensor 的 仁 。 需 要 with sess. 
tf.Tensor tf.Tensor.eval(feed dict=None, session=None) 中 k 全 需要 使 用 
as_default() 或 者 eval(session=sess) 
占 位 符 tf.placeholder(dtype, shape=None, name=None) 为 一 个 tensor 插入 一 个 占 位 符 
- tf.Session. fetches, feed dict=None, optl oe a 
全 话 管理 ession.run(fetches, feed dict=None, options 运行 fetches 中 的 操作 节点 并 求 其 什 
=None, run metadata=None) 
形状 操作 tf.reshape(tensor, shape, name=None) 改变 tensor 的 形状 
_ 四 调换 tensor 的 维度 顺序 ， 按 照 列表 perm 的 维 
窃 阵 相关 运 售 tf.transpose(a, perm=None, name= 'transpose， > 
A oss) 度 排列 调换 tensor 顺序 
序列 比较 与 索 
| Ma 5 tf.argmin(input, dimension, name=None) 返回 input 最 小 值 的 索引 index 
二: 
tf.nn.relu(features, name=None) 整流 曙 数 : max(features, 0) 
tfnn.dropout(x, keep prob, noise shape=None,| 计算 dropout，keep prob 为 keep 概率 ，noise 
激活 图 数 seed=None, name=None) shape 为 噪声 的 shape 
tf.sigmo1id(x, name=None) =1/(1+exp(-x)) 
tf.tanh(x, name=None) RE 数 
tf.nn.conv2d(input, filter, strides, padding, 结果 返回 一 个 Tensor， 这 个 输出 ， 就 是 我 们 
卷 积 限 数 use cudnn on gpu=None, data format=None, | 党 说 的 feature map，shape 仍然 是 [batch, height, 
name=None) width, channels] 这 种 形式 
tf.nn.ave pool(value, ksize, strides, padding, a 
平均 方式 池 化 
、 data format='NHWC ,name=None) THT 
RN tf lvalue ksize, strides, paddi 
.nn.max pool(value, ksize, strides, padding, 、、 
最 大 值 方法 池 化 
data format= NHWC , name=None) NE i 
和 tf.nn.l2 normalize(x, dim, epsilon=1e-12, 
数据 标准 化 对 维度 dim 进行 L2 范式 标准 化 
name=None) 
计 算 softmax，softmax[i, j] = exp(logits[i, j])/ 
tf.nn.softmax(logits, name=None) Ei 由 中 pogitS Tb ]) 
sum J(exp(logits[i, J])) 
tf.nn.softmax cross entropy with logits(logits, | 计算 logits 和 1labels 的 softmax 交叉 烂 ，logits， 
labels, name=None) labels 必须 为 相同 的 shape 与 数据 类 型 
: tf.nn.rnn(cell, nputs, initial state=N one, RE a 、 
循环 神经 网 络 一 基于 RNNCell 类 的 实例 cell 建立 循环 神经 网 络 
dtype=None, sequence length=None, Scope=None) 
优化 器 class tf.train.GradientDescentOptimizer 使 用 梯度 下 降 算 法 的 Optimizer 


14.1.6 TensorFlow 运 行 原理 
TensorFlow 有 一 个 重要 组 件 client， 即 客户 端 ， 此 外 ， 还 有 master、worker， 这 些 有 点 类 似 Spark 的 结构 。 
(device) 相连 ， 比 如 CPU 或 GPU， 并 负责 管理 这 些 硬件 。 而 master 则 负责 管理 所 有 worker 按 流程 执行 计算 图 。 


TensorFlow 有 单机 模式 和 分 布 式 模式 两 种 实现 ， 其 中 单机 指 client、master、worker 全 部 在 一 台 机 器 上 的 同一 个 
由 集群 调度 系统 统一 管理 各 项 任务 。 如 图 14-2 所 示 为 单机 版 和 分 布 式 版 本 的 实现 原理 图 。 


class tftrain.AdamOptimizer 使 用 Adam 算法 的 Optimizer 


过 Session 的 接口 与 master 及 多 个 worker 相 连 ， 其 中 每 一 个 worker 可 以 与 多 个 硬件 设备 


进程 中 ; 分 布 式 的 版 本 允许 client、master、worker 在 不 同 机 器 的 不 同 进程 中 ， 同 时 
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图 14-2 TensorFlow 单 机 版 本 和 分 布 式 运行 原理 


14.1.7 TensorFlow 系 统 架 构 


如 图 14-3 所 示 为 TensorFlow 的 系统 架构 ， 从 底 向 上 分 为 设备 管理 和 通信 层 、 数 据 操作 层 、 图 计算 层 、API 接 口 层 、 应 用 层 。 其 中 设备 管理 和 通信 层 、 数 据 操作 层 、 图 计算 层 是 TensorFlow 的 核心 层 。 


训练 相关 失 库 预测 相关 闪 库 


Python (C++ GO 
Client Client 


Tensor C API 


分 布 式 计算 图 本 地 计算 图 


Const Var Matmul Conv2D Relu 
效 据 控 作 屋 


CPU GPU 
议 钾 层 





图 14-3 ”TensorFlow 系 统 架 构 
底层 设备 通信 层 负责 网 络 通 信和 设备 管理 : 设备 管理 
“ 可 以 实现 TensofFlow 设 备 异 构 的 特性 ， 支 持 CPU、GPU、Mobile 等 不 同 设 备 。 网 络 通信 依赖 gRPC 通 信 协 议 实现 不 同 设 备 间 的 数据 传输 和 更 新 。 
. 第 二 层 为 数据 操作 层 实 现 : 这 些 操作 以 Tensot 为 处 理 对 象 ， 依 赖 网 络 通信 和 设备 内 存 分 配 ， 实 现 了 各 种 Tensot 操 作 或 计算 。 操 作 不 仅 包 含 MatMul 等 计算 操作 ， 还 包含 Queue 等 非 计 算 操 作 。 
. 第 三 层 是 图 计算 层 (Graph) : 包含 本 地 计算 流 图 和 分 布 式 计算 流 图 的 实现 ，Graph 模 块 包含 Graph 的 创建 、 编 译 、 优 化 和 执行 等 部 分 ，Graph 中 每 个 节点 都 是 操作 类 型 表示 。 
. 第 四 层 是 API 接 口 层 : Tensor C API 是 对 TensorFlow 功 能 模块 的 接口 封装 ， 便 于 其 他 语言 平台 调用 。 


* 第 四 层 以 上 是 应 用 层 : 不 同 编程 语言 在 应 用 层 通 过 API 接 口 层 调 用 TensorFlow 核 心 功 能 实现 相关 应 用 。 


14.2 TensorFlow 实 现 卷 积 神经 网 络 


神经 网 络 可 为 机 器 学 习 中 最 活跃 的 领域 之 一 ， 尤 其 代表 深度 学 习 的 卷 积 神经 (Convolutional Neural Network，CNN) 、 循 环 神经 网 络 (Recurrent Neural Network，RNN) 更 是 炙手可热 。 


14.2.1 ” 考 积 仲 经 网 络 简 介 


卷 积 神经 网 络 是 人 工 神经 网 络 的 一 种 ， 已 成 为 图 像 识别 、 视 频 处 理 、 语 音 分 析 等 领域 的 研究 热点 。 它 的 权 值 共享 网 络 结构 使 之 更 类 似 于 生物 神经 网 络 ， 减 少 了 权 值 的 数量 ， 降 低 了 网 络 模型 的 复杂 度 ， 
避免 因 参 数 太 多 导致 过 拟 合 。 

卷 积 神经 网 络 在 训练 时 自动 提取 最 有 效 特 征 ， 使 图 像 可 以 直接 作为 输入 ， 避 免 了 传统 机 器 学 习 算 法 中 复杂 的 特征 提取 和 数据 重建 过 程 。 

在 卷 积 神经 网 络 中 ， 第 一 个 卷 积 层 直接 接受 图 像 像素 级 的 输入 ， 每 一 个 卷 积 操作 只 处 理 一 小 块 图 像 ， 进 行 卷 积 变化 后 再 传 到 后 面 的 网 络 层 。 每 一 层 卷 积 都 会 提取 最 有 效 的 特征 。 这 种 方法 可 以 提取 图 像 
中 最 基础 的 特征 (图像 都 是 一 些 基础 特征 构成 的 ， 音 频 也 有 其 基础 特征 ) ， 例 如 不 同方 向 的 边 或 者 角 点 ， 而 后 进行 组 合 和 抽象 等 更 高 级 的 特征 。 因 此 ，CNN 可 以 应 对 各 种 情况 ， 对 平移 、 比 例 缩放 、 倾 斜 或 
者 共 他 形式 的 变形 具有 高 度 不 变性 。 

有 几 个 概念 ， 如 共享 权重 ， 自 动 提取 特征 等 对 初学 者 可 能 不 易 理 解 ， 这 里 我 们 通过 一 个 示例 进行 说 明 。 

假设 有 一 个 原 ?x 5 像素 的 一 个 图 像 (当然 一 般 图 像 的 像素 远大 于 这 个 数 ， 此 外 还 要 考虑 颜色 通道 等 ) ， 现 在 对 该 图 像 进行 卷 积 处 理 ， 假 设 卷 积 核 大 小 为 3x3 (一 个 卷 积 层 中 可 以 有 多 个 卷 积 核 ) ， 移 动 
步 长 (strides) 为 1， 那 么 卷 积 核 (图 14-4 中 的 深 色 小 窗口 ) 在 ?x5 图 片 ， 按 步 长 从 左 到 右 ， 从 上 到 下 移动 时 ， 卷 积 核 在 二 维 平 面 上 平移 ， 并 且 卷 积 核 的 每 个 元 素 (权重 ) 与 被 卷 积 图 像 对 应 位 置 相 乘 ， 再 求 
和 。 通 过 卷 积 核 的 不 断 移动 ， 就 可 以 生成 一 个 新 的 图 像 ， 如 图 14-4 右 边 3x3 的 图 像 。 














图 14-4 提取 第 一 个 特征 值 4 的 示意 图 








图 14-5 ”提取 第 二 个 特征 值 3 的 示意 图 


| 


黄色 小 窗口 在 移动 过 程 中 ， 因 它们 同属 一 个 卷 积 核 ， 其 权重 不 会 随 着 移动 而 改变 ( 即 所 谓 的 权重 共享 ) ， 都 是 : ' 
图 14-5 右 边 窗口 中 的 4 和 3 ， 分 别 是 深 色 窗口 中 的 值 乘 以 对 应 权重 得 到 的 : 
4=1x1+1xO0+1x1+0xO+1x1+1xO0+0x1+0xO0+1x1 

3=1x1+1xO+O0x1+1xO0+1x1+1xO0+0x1+1xO0O+1x1 


深 色 窗 口 按 步 长 每 移动 一 次 就 可 得 到 右边 对 应 的 一 个 值 ， 共 有 9 中 移动 方法 ， 所 以 我 们 能 得 到 9 个 特征 值 。 


14.2.2 ” 卷 积 神经 网 络 的 发 展 历程 


深度 学 习 (Deep Learning) 尤其 是 卷 积 神经 网 络 (CNN) 已 成 为 近 几 年 来 模式 识别 的 研究 重点 ， 受 到 人 们 越 来 越 多 的 关注 ， 并 产生 了 几 种 变种 。 不 管 如 何 变 化 ， 但 是 万 变 不 离 其 宗 ， 那 些 在 深度 学 习 
发 展 过 程 中 起 关键 作用 的 经 典 文献 ， 这 里 依据 时 间 线 索 ， 对 CNN 发 展 过 程 中 出 现 的 一 些 经 典 文献 做 一 些 梳理 ， 方 便 大 家 在 研究 CNN 时 追 本 溯源 ， 了 解 CNN 的 发 展 历史 ， 了 解 大 师 们 为 推进 CNN 所 做 出 的 杰 
出 贡献 。 如 图 14-6 所 示 为 CNN 在 发 展 过 程 中 的 一 些 具有 里 程 碑 意义 的 事件 和 文献 。 
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图 14-6 CNN 发 展 重 要 里 程 碑 


对 于 CNN 最 早 可 以 追溯 到 1986 年 BP 算 法 的 提出 ，1989 年 LeCun 将 其 应 用 到 多 层 神经 网 络 中 ， 直 到 1998 年 LeCun 提 出 LeNet-5 模 型 ， 神 经 网 络 的 雏形 基本 形成 。 在 接 下 来 近 十 年 的 时 间 里 ， 卷 积 神经 网 
络 的 相关 研究 处 于 低谷 ， 原 因 有 两 个 : 一 是 研究 人 员 意 识 到 多 层 神经 网 络 在 进行 BP 训 | 练 时 的 计算 量 极其 之 大 ， 以 当时 的 硬件 计算 能 力 完全 不 可 能 实现 ， 二 是 包括 SVM 在 内 的 浅 层 机 器 学 习 算法 也 渐渐 开始 窑 
露头 角 。 

2006 年 ，Hinton 终 于 一 鸣 惊 人 ， 在 《科学 》 上 发 表 文章 ，CNN 再 度 觉 醒 ， 并 取得 长 足 发 展 。2012 年 ，ImageNet 大 赛 上 CNN 夺 冠 ，2014 年 ， 谷 歌 研发 出 20 层 的 VGG 模 型 。 同 年 ，DeepFace、 
DeeplD 模 型 横 空 出 世 ， 直 接 将 LFW 数 据 库 上 的 人 脸 识别 、 人 脸 认 证 的 正确 率 刷 到 99.759%6， 几 乎 超越 人 类 。2015 年 深度 学 习 领 域 的 三 巨头 LeCun、Bengio、Hinton 联 手 在 Nature 上 发 表 综 述 对 
DeepLearning 进 行 科普 。2016 年 3 月 AlphaGo 打 败 李 世 石 ， 使 深度 学 习 再 一 次 点 燃 人 们 心中 的 热情 。 如 图 14-7 所 示 为 CNN 的 以 技术 为 线索 的 发 展 历程 。 


网 络 加 深 一 者 结合 

VGG19 MSRANet 网 络 加 深 + 收敛 加 速 
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图 14-7 CNN 技 术 发 展 历程 
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其 中 有 两 个 关键 技术 的 突破 一 一 dropout 和 ReLU。dropout 是 针对 深度 学 习 中 过 拟 合 问题 ， 由 Hinton 教 授 团 队 提 出 的 一 个 解决 方案 ， 基 本 思想 是 在 训练 时 ， 将 神经 网 络 某 一 层 的 输出 节点 数据 随机 丢弃 
一 部 分 。 通 过 这 种 方式 ， 将 创建 很 多 新 样本 ， 同 时 减少 特征 数量 ， 以 此 避免 过 拟 合 的 发 生 。 


而 ReLU 是 针对 深度 学 习 中 梯度 弥散 问题 ， 由 Hinton 教 授 团队 提出 的 一 个 解决 方案 。 神 经 网 络 训练 一 般 都 使 用 3igmoid 作 为 激活 函数 ， 这 种 激活 函数 对 于 一 般 神经 网 络 来 说 效果 比较 好 ， 尤 其 在 层 数 不 多 
时 ， 表 现 还 不 错 ， 但 层 数 较 多 时 ， 在 反 向 传播 中 的 梯度 将 呈现 指数 级 下 降 ， 因 此 梯度 传 到 前 几 层 时 就 变 得 非常 小 ， 根 据 训 练 数据 的 反馈 来 更 新 神经 网 络 的 参数 就 变 得 非常 缓慢 ， 甚 至 起 不 到 应 有 的 作用 。 但 
使 用 ReLU 就 可 以 很 好 地 解决 这 类 问题 ，ReLU 为 一 个 非 线 性 函数 : y=max (x, 0) 。 


14.2.3 ” 卷 积 神经 网 络 的 网 络 结构 


卷 积 神经 网 络 经 过 多 年 上 发展， 出 现 了 多 种 技术 ， 但 基本 网 络 结构 相似 ， 一 般 包 括 : 卷 积 运算 、 池 化 运算 、 全 连接 运算 和 识别 运算 ， 如 图 14-8 所 示 。 


卷 积 运算 池 化 运算 全 连接 运算 识别 运算 
-一 -一 > 一 一 > 





苍 积 核 池 化 核 
( 亦 称 滤波 需 ) ”( 亦 称 下 采样 ) 


图 14-8 ” 卷 积 神经 网 络 结构 


. 卷 积 运算 : 前 一 层 的 特征 图 与 卷 积 核 进 行 卷 积 运算 ， 运 算 的 结果 再 加 偏 移 置 ， 经 过 激活 函数 后 形成 这 一 层 的 神经 元 ， 每 个 神经 元 的 输入 与 前 一 层 的 局 部 感受 野 (receptive field) 相连 接 ， 并 提取 该 局 部 
的 特征 ， 一 旦 该 局 部 特征 被 提取 ， 它 与 其 他 特征 之 间 的 位 置 关 系 就 被 确定 。 


: 池 化 运算 : 对 激活 函数 的 结果 再 进行 池 化 (Pooling) 操作 (又 称 为 降 采 样 或 下 采样 (Down-Sampling) ， 如 把 一 个 5X5 的 图 片 降 为 2X2 的 图 片 。 有 最 大 值 池 化 和 均值 池 化 ， 最 大 值 池 化 是 选择 区 域内 
的 最 大 值 ， 均 值 池 化 是 计算 区 域内 的 平均 值 。 通 过 该 运算 来 消除 信号 的 偏 移 和 扭曲 。 


. 全 连接 运算 : 输入 信号 经 过 多 次 卷 积 核 池 化 运算 后 ， 输 出 为 多 组 信号 ， 经 过 全 连接 运算 ， 将 多 组 信号 依次 组 合 为 一 组 信号 。 
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为 特征 学 习 过 程 ， 最 后 我 们 需 在 上 述 运算 
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14.2.4 TensorFlow 实 现 卷 积 神经 网 络 


本 节 通 过 一 个 实例 来 说 明 如 何 通过 TensorFlow 创 建 一 个 卷 积 神经 网 络 架构 ， 使 用 M NIST 数 据 集 ， 这 一 个 非常 有 名 的 手写 数字 识别 数据 集 ， 有 60000 张 图 片 作为 训练 集 ，10000 张 图 片 为 测试 集 ， 每 张 图 
为 一 个 手写 的 0~ 9 的 数字 。 如 图 14-9 所 示 。 





图 14-9 ”MNIST 数 据 集 图 片 示 例 


其 中 每 张 图 的 大 小 均 为 28*28， 这 里 大 小 指 的 是 像素 。 例 如 ， 数 字 3 所 对 应 的 像素 矩阵 如 图 14-10 所 示 。 


UUUUUUUUUUUUU111111100U0000UUUUUU 
00000000011111111111100000000000 
00000001111111111111111000000000 
UUUUUU11111110000011111110000000 
00000001111000000001111110000000 
00000001110000000001111110000000 
00000000000000000001111110000000 
00000000000000000011111100000000 
UUUUUUUUUUUUUUUUU111111100U0UUU0U 
00000000000000011111111000000000 
O00000000000011111111110000000000 
00000000000111111111000000000000 
00000000000111111111000000000000 
U0U00000000111111111110000000000 
00000000000111111111111000000000 
00000000000010011111111000000000 
00000000000000000111111100000000 
00000000000000000000111110000000 
00000000000000000000011110000000 
O00000000000000000000011110000000 
O00000000000000000000011111000000 
00000000000000000000001111000000 
00000000110000000000011111000000 
00000001110000000000011110000000 
00000001110000000001111110000000 
UUUUU0U11111000000111111100000000 
UUUUUU11111000011111111000000000 
00000001111111111111100000000000 


图 14-10 MINIST 数 据 集 数字 3 图 片 及 像素 

















接 下 来 ， 我 们 利用 训练 集训 练 卷 积 神经 网 络 模型 ， 然 后 在 测试 集 上 验证 该 模型 。 


搭建 的 卷 积 神经 网 络 使 用 的 一 些 参数 是 : 


. 卷 积 层 1: k 


: 池 化 层 1: 


ernel_size[5，5]，stride=1，32 个 卷 积 窗口 。 


pool_size[2,，2]，stride=2。 


. 卷 积 层 2: kernel_size[5，5]，stride=1，64 个 卷 积 窗口 。 
. 池 化 层 2: pool_size[2，2]，stride==2。 

“ 全 连接 层 : 1024 个 特征 ， 使 用 dropout 减 少 过 拟 合 。 

“ 输出 层 : 使 用 softmax 进 行 分 类 。 

1. 导 入 数据 


首先 启动 jpython， 进 入 交互 计算 环境 ， 当 然 直接 启动 Python 也 可 ， 然 后 通过 TensorFlow 自 带 的 函数 读 取 图 片 数据 。 











import tensorflow as tf 
from tensorflow.examples.tutorials.mnist import input data 

mist = input data.read data sets ("MNIST data/", one hot=True) 
~/anaconda2/1ib/python2.7/site-packages/tensorflow/contrib/learn/python/learn/datasets/mnist.py 中 函数 read data sets 四 个 local file 



































如 果 无 法 直接 通过 input_data 下 载 ， 可 以 先 把 MNI1ST 数 据 下 载 ， 然 后 ， 修 改 python/learn/datasets/mnist.py 文 件 中 read_data_sets 函 数 中 4 个 local file 的 值 。 


具体 如 下 ， 注 释 原 来 的 local_file， 新 增 4 行 local_file。 

















#local file = base.maybe download (TRAIN IMAGES, train dir,SOURCE URL + TRAIN IMAGES) 
local file = train dir + "/" + TRAIN IMAGES 
with open(local file, 'rb') as f: 

train images = extract images ( 工 ) 






























































#local file = base.maybe download (TRAIN LABELS, train dir,SOURCE URL + TRAIN LABELS) 
local file = train dir + "/" + TRAIN | LABELS 
with open(local file, 'rb') as f: 

train lJabels = extract labels(f, one hot=one hot) 



















































































#local file = base.maybe download (TEST IMAGES, train dir,SOURCE URL + TEST IMAGES) 
local file = train dir + "/" + TEST IMAGES 
with open(local file, 'rb') as f: 

test images = extract images (£) 




































































#local file = base.maybe download (TEST LABELS, train dir,SOURCE URL + TEST LABELS) 
local file = train dir + "/" + TEST LABELS 









































更 加 数据 实际 存放 路 径 ， 修 改 read_data_sets 中 读 取 文件 路 径 。 





mist = input data.read data sets("./TensorFlowOnSpark/mist", one hot=True) 
# 创建 交互 式 session 


sess = tf.InteractiveSession () 























2. 权 重 初始 化 


# 正 态 分 布 , 标 准 差 为 0.1, 默认 最 大 为 1, 最 小 为 -1 均值 为 0 

def weight variable (shape): 
initial = tf.truncated normal (shape, stddev=0.1) 
return tf.Variable (initial) 

# 创建 一 个 结构 为 shape 和 矩阵 也 可 以 说 是 数组 shape 声 明 其 行列 ,初始 化 所 有 值 为 0.1 

def bias _ Variable (Shape) : 
initial = tf.constant (0.1, shape=shape) 
return tf.Variable (initial) 




































































3. 构 建 卷 积 神经 网 络 结构 


# 卷 积 遍历 各 方向 步 数 为 1, SAME :边缘 外 自动 补 0, 遍 历 相 乘 
def conv2d (x, W): 
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding="SAME 
# 池 化 卷 积 结果 (conv2d) 池 化 层 采 用 kernel 大 小 为 2*2， 步 数 a 周围 补 0， 取 最 大 信 。 数据 量 缩小 了 4 倍 
def max pool 2x2 (X) : 














mm! 























































































































return tf.nn.max pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1], padding="SAME') 
# 定 义 输入 输出 结构 
# 声明 一 个 占 位 符 , None 表 示 输 入 图 片 的 数量 不 定 , 28*28 图 片 分 辩 率 
XS 二 七 .Placeholder (tf.float32, [None, 28*28]) 
# 类 别 是 0-9 总 共 10 个 类 别 , 对 应 输出 分 类 结 
ys = tf.placeholder (tf.float32, [None, 10]) 
keep prob = tf.placeholder (tf.float32) 












































# x image 又 把 xs reshape 成 了 28*28*1 的 形状 ,因为 是 灰色 图 片 ,所 以 通道 是 1 .作为 训练 时 的 jnput, -1 代表 图 片 数量 不 定 
x image = tf.reshape (xs, [-1l, 28, 28, 1]) 
# 禾 建 网 络 ,定义 算法 公式 ,也 就 是 forward 时 的 计算 


## 第 一 层 卷 积 操作 ## 

# 第 一 二 参数 值得 卷 积 核 尺 寸 大 小 , 即 Patch 第 三 个 参数 是 图 像 通道 数 , 第 四 个 参数 是 卷 积 核 的 数目 ,代表 会 出 现 多 少 个 卷 积 特征 图 像 ; 
W convl = weight variable([5, 5, 1, 32]) 

# 对 于 每 一 个 卷 积 核 那 有 一 个 对 应 的 偏 置 量 。 

b convi = bias variable ([32]) 

# 图 厂 乘 以 卷 积 核 ,并 加 上 仿 执 量 ， 卷 积 结果 28x28x32 

h conv] f.nn.relu(conv2d(x image, W convl) + b conv]l) 

# - 池 化 结果 14x1 4x32 卷 积 结果 乘 以 江 化 卷 积 核 “ 本 

h pooll = max Pool 2x2(h convI) 


## 第 二 层 卷 积 操作 ## 
# 32 通 道 卷 吕 , 卷 积 出 6 64 个 特征 
Ww Conv2 = weight variable([5,5,32,64]) 
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# 64 个 偏执 数据 
b conv2 = bias variable([64]) 
# 注意 h pool1 是 上 一 层 的 池 化 结果 ， # 卷 积 结果 14x14x64 





= tf.nn.relu(conv2d(h pooll,w conv2)+b conv2) 

# 池 化 结果 7x7x64 

h pool2 = max Pool 2x2(h conv2) 

原 图 像 尺 寸 28*28, 第 一 轮 图 像 缩小 为 14*14, 共 有 32 张 ,第 二 轮 后 图 像 缩 小 为 7*7, 共 有 64 张 


恨 全 连接 操作 

张 量 ， 第 一 个 参数 7*7*64 的 patch, 第 二 个 参数 代表 卷 积 个 数 共 1024 个 

fc] = walete variable ([7*7*64, 1024]) 

1024 个 3 执 数 于 

fel = bias 0 

将 第 二 层 卷 积 池 化 结果 reshape 成 只 有 一 行 7*7*64 个 数据 # [n_samples, 7, 7, 64] ->> [n_samples, 7*7*64] 
Pool2 at = tf.reshape (h pool2, [-1, 7*7*64]) 
闪 积 操作 /结果 是 1*1x*1024,matmul 实 现 最 基本 的 矩阵 相 乘 。 
fc] tf.nn.relu(tf.matmul (h pool2 flat, W fcl) + b fcl) 
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# dropout 操 作 , 减 少 过 拟 合 。 对 卷 积 结果 执行 dropout 操 作 。 
keep prob = tf.placeholder (t f .float32) 

h fcl drop = .nn.dropout (h fcl, keep prob) 

桂 第 四 层 输出 操作 ## 

二 维 张 量 ， | 024 和 矩阵 卷 积 ， 10 个 卷 吕 ,对 应 我 们 开始 的 ys 长 度 为 10 
= weight variable([1024, 10]) 

= bias variable ([10]) 







































































# 最 后 的 分 类 ,结果 为 1*1*10 softmax 









































y conv=tf.nn.softmax(tf.matmul (h fcl1 drop, W fc2) + b fc2) 

# 定 义 交 义 人 为 loss 函 数 , 采 用 Adam 方 法 优化 lo0ss。 一 

cross entropy = -tf.reduce suml(ys * tf.log(y conv)) 

train step = tf.train.AdamOptimizer (le-4) .minimize (cross entropy) 














4. 训 | 练 评估 模型 


# 模 型 训练 及 评测 
correct prediction = tf.equal (tf.argmax(y conv,1), tf.argmax(ys,1)) 
accuracy = tf.reduce mean(tf.cast (correct prediction, tf.float32)) 
tf.global variables initializer() .zun() 















































for i in range(2000): 
batch = mist.train.next batch (50) 
if i%100 == 0: 
train accuracy = accuracy.eval (feed dict={xs:batch[0], ys: batch[1], keep prob: 1.0}) 
print ("step %d, training accuracy %g"%(i, train accuracy)) 
train step.run (feed dict={xs: batch[0], ys: batch[1], keep prob: 0.5}) 




















这 里 只 和 迭代 了 2000 次 ， 运 行 结果 如 下 面 代 码 所 示 (如 果 迭 代 20000 次 ， 在 测试 集 上 的 精度 可 达 99.2%) 。 























## -- End pasted text 一 一 

step 0, training accuracy 0.14 
step 100, training accuracy 0.86 
step 200, training accuracy 0.94 
step 300, training accuracy 0.94 
step 400, training accuracy 0.94 
step 500, training accuracy 0.98 
step 600, training accuracy 0.94 
step 700, training accuracy 0.94 
step 800, training accuracy 0.98 
step 900, training accuracy 0.98 
step 1000, training accuracy 1 
step 1100, training accuracy 0.94 
step 1200, training accuracy 0.98 
step 1300, training accuracy 0.96 
step 1400, training accuracy 0.92 
step 1500, training accuracy 0.96 
step 1600, training accuracy 0.96 
step 1700, training accuracy 1 
step 1800, training accuracy 1 
step 1900, training accuracy 0.96 














在 测试 集 上 ， 测 试 模型 精度 : 





print ("test accuracy %g"%accuracy.eval (feed dict={xs: mnist.test.images, ys: mist.test.labels, keep prob: 1.0})) 
test accuracy 0.9778 


14.3 TensorFlow 实 现 循 环 神 经 网 络 


前 面 我 们 介绍 了 卷 积 神经 网 络 (CNN) ， 其 核心 在 于 构建 特征 过 滤器 ， 以 处 理 输入 图 片 中 像素 的 空间 位 置信 息 。 在 自然 语言 处 理 中 ， 很 多 与 上 下 文 有 关 或 与 时 间 序 列 有 关 ， 这 类 问题 使 用 卷 积 神经 网 络 
不 太 适 合 ， 不 过 我 们 可 以 通过 循环 神经 网 络 来 处 理 ， 循 环 神经 网 络 特别 适合 于 含有 时 间 序列 或 上 下 文联 系 的 模型 。 这 节 我 们 将 介绍 循环 神经 网 络 (Recurrent Neural Network，RNN) ， 循 环 神经 网 络 在 
语音 识别 、 语 音 翻译 、 机 器 翻译 等 领域 成 效 显著 ， 由 于 RNN 涉 及 时 间 维 度 ， 在 进行 逐 层 反 向 传播 时 ， 易 导致 梯度 消失 或 爆炸 的 问题 ， 人 在 1997 年 ，Juergen schmidhuber 和 他 的 同事 提出 长 短 记 忆 (Long 
Short-Term Memory) ， 从 而 解决 了 该 问题 ， 目 前 循环 神经 网 络 在 很 多 领域 取得 了 很 大 成 功 和 突破 。 我 们 这 节 主 要 介绍 LSTM 神 经 网 络 。 


14.3.1 ”循环 伸 经 网 络 简介 


在 传统 的 神经 网 络 模型 中 ， 从 输入 层 到 隐 含 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 。 但 是 这 种 普通 的 神经 网 络 对 于 很 多 问题 却 无 能 为 力 。 例 如 ， 你 要 预测 句子 的 下 一 个 单 
词 是 什么 ,一 般 需要 用 到 前 面 的 单词 ， 因 为 一 个 句子 中 前 后 单词 并 不 是 独立 的 ， 即 一 个 序列 当前 的 输出 与 前 面 的 输出 也 有 关 。 具 体 的 表现 形式 为 网 络 会 对 前 面 的 信息 进行 记忆 并 应 用 于 当前 输出 的 计算 中 ， 
即 隐藏 层 之 间 的 节点 不 再 是 无 连接 而 是 有 连接 的 ， 并 且 隐 藏 层 的 输入 不 仅 包括 输入 层 的 输出 ， 还 包括 上 一 时 刻 隐 藏 层 的 输出 。 


理论 上 ，RNNs 能 够 对 任何 长 度 的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 ， 往 往 假设 当前 的 状态 只 与 前 面 的 几 个 状态 相关 ， 如 图 14-11 所 示 便 是 一 个 典型 的 RNNs。 
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图 14-11 循环 神经 网 络 展 开 示意 图 

















普通 循环 网 络 ， 虽 然 可 以 处 理 整个 时 间 序 列 信息 ， 但 影响 最 大 的 还 是 最 近 或 最 后 输入 的 一 些 信息 ， 更 早 的 一 些 信号 越 来 越 弱 ， 这 个 不 足 导 至 RNN 在 早期 作用 不 明显 。 于 1997 年 提出 的 Long Short Term 
Mermory network (LSTM) ， 很 好 地 解决 了 这 个 问题 ， 下 节 我 们 将 对 其 进行 介绍 。 


14.3.2 ”LSTM 循 环 神经 网 络 简介 


LSTM 是 一 种 特殊 的 RNNs， 可 以 很 好 地 和 解决 长 时 依赖 问题 。 那 么 它 与 常规 神经 网 络 有 什么 异同 ?首先 我 们 来 看 RNNs 的 具体 结构 ， 如 图 14-12 所 示 。 


A A 
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图 14-12” 一般 RNN 结 构图 


所 有 的 递归 神经 网 络 都 是 由 重复 神经 网 络 模 块 构成 的 一 条 链 ， 可 以 看 到 它 的 处 理 层 非常 简单 ， 通 常 是 一 个 单 tanh 层 ， 通 过 当前 输入 及 上 一 时 刻 的 输出 来 得 到 当前 输出 。 与 神经 网 络 相 比 ， 经 过 简单 的 改 
造 ， 它 已 经 可 以 利用 上 一 时 刻 学 习 到 的 信息 进行 当前 时 刻 的 学 习 。 


LSTM 的 结构 与 上 面相 似 ， 不 同 的 是 它 的 重复 模块 会 比较 复杂 一 点 ， 它 有 四 层 结构 ， 如 图 14-13 所 示 。 





图 14-13 LSTM 结 构图 


里 于: 色 块 表示 神经 网 络 层 (Neural Network layer) 
QO: 向量 点 乘 操 作 (pointwise operation) 

一 -> :向 量 (vector) 从 一 个 节点 到 另 一 个 节点 
二 >: 合并 操作 (concatenate) 

辟 : 复 制 (copy) 


LSTM 的 关键 就 是 和 矩形 方 框 ， 被 称 为 记忆 块 (memory block) ， 主 要 包含 了 三 个 门 (forget gate、input gate、output gate) 与 一 个 记忆 单元 (cell) 。 方 框 内 上 方 的 那 条 水 平 线 ， 被 称 为 单元 状态 
(cell state) ， 它 就 像 一 个 传送 带 ， 可 以 控制 信息 传递 给 下 一 时 刻 。 当 state 在 这 条 传送 带 传递 时 ，LSTM 单 元 可 以 对 其 添加 或 删除 或 修改 信息 ， 这 些 对 信息 的 修改 通过 这 些 Gate 来 控制 。 这 些 Gates 中 包含 
一 个 Sigmoid 层 和 一 个 向 量 点 乘 操 作 ， 这 个 Sigmoid 的 输出 在 0 和 1 之 间 ， 它 直接 控制 信息 的 传递 比例 。0 表 示 不 允许 ，1 表 示 全 部 通过 。 每 个 LSTM 单 元 都 有 这 样 的 3 个 Gates， 通 过 这 种 方式 LSTM 就 可 实现 长 
程 记 忆 . 


14.3.3 LSTM 循 环 神经 网 络 分 步 说 明 


1) 第 一 步 : 确定 以 往 什 么 信息 可 以 通过 cell state。 


这 个 决定 由 忘记 门 (forget gate) 通过 sigmoid 来 控制 ， 它 会 根据 上 一 时 刻 的 输出 ht-1 和 当前 输入 xt 来 产生 一 个 [0，1] 区 间 的 ft 值 ， 来 决定 是 否 让 上 一 时 刻 学 到 的 信息 ct-1 通 过 或 部 分 通过 。 如 图 14-14 所 


f=o(W, :|h—1,x,|+b,) 





图 14-14 ”忘记 门 逻 辑 设计 
2) 第 二 步 : 产生 新 信息 。 


这 一 步 包含 两 部 分 ， 第 一 个 是 输入 门 (input gate) 通过 sigmoid 来 决定 哪些 值 用 来 更 新 ， 第 二 个 是 一 个 tanh 层 用 来 生成 新 的 候选 值 ct， 它 作为 当前 层 产生 的 候选 值 可 能 会 添加 到 cell state 中 。 我 们 会 
把 这 两 部 分 产生 的 值 结合 来 进行 更 新 ， 如 图 14-15 所 示 。 


i =o(W:[h —1,x,]+b,) 
C =tanh(W.:[h, —1,x,|+2b.) 





图 14-15 ”输入 门 与 候选 门 逻 辑 设计 
3) 第 三 步 : 更 新 老 的 cel| state。 


首先 ， 我 们 将 老 的 cell state ( 即 Ct-1) 乘 以 ft 来 忘掉 我 们 不 需要 的 信息 ， 然 后 再 与 ”5, 相 加 ， 得 到 了 候选 值 。 把 这 两 步 结合 起 来 就 是 丢掉 不 需要 的 信息 ， 添 加 新 信息 的 过 程 ， 如 图 14-16 所 示 。 





C = 0 +% ul 





图 14-16 ”输入 门 与 候选 门 远 辑 设计 


4) 最 后 一 步 : 决定 模型 的 输出 。 


首先 ， 通 过 运行 一 个 sigmoid 层 决定 cell 状 态 输 出 哪 一 部 分 。 随 后 ， 我 们 把 cell 状 态 通过 tanh 函 数 ， 将 Ct 徐 出 值 保持 在 -1 到 1 之 间 。 之 后 ， 我 们 再 乘 以 sgmoid 门 的 输出 值 ， 就 可 以 得 到 结果 了 ， 如 图 14- 


17 所 示 。 


h, 


0,=0oO(W [4 —1,x,|+b,) 
=0, *tanh+(C,) 





图 14-17 “输出 门 逻 辑 设计 


sigmoid 函 数 的 输出 是 不 考虑 先前 时 刻 学 到 的 信息 的 输出 ，tanh 函 数 是 对 先前 学 到 信息 的 压缩 处 理 ， 起 到 稳定 数值 的 作用 ， 两 者 的 结合 学 习 就 是 递归 神经 网 络 的 学 习 思想 。 


14.3.4 TensorFlow 实 现 循 环 神 经 网 络 


前 面 我 们 用 卷 积 神经 网 络 ， 对 M NIST 中 的 手写 数 进 行 设 别 ， 如 果 迭 代 20000 次 ， 精 度 可 达到 99.2 左 右 ， 这 个 精度 应 该 比较 高 ; 如果 我 们 用 循环 神经 网 络 来 识别 ， 是 否 可 行 ” 如 果 可 以 ， 效 果 如 何 ? 


为 了 适合 使 用 RNN 来 识别 ,每 张 图 片 大 小 为 28x28 像 素 ， 我们 把 每 张 图 片 的 每 一 行 (元 素 个 数 为 28) 作为 输入 数据 n_inputs， 把 每 一 行 (一 张 图 片 共 28 行 ) 看 成 是 与 时 间 序 列 有 关 的 步 数 n_steps， 这 
样 图 片 的 所 有 信息 都 用 上 了 ， 而 且 适 合 使 用 RNN 的 应 用 场景 。 


启动 IPython， 进 入 IPython 的 交互 式 界面 ， 导 入 需要 的 库 ， 并 启动 交互 式 会 话 。 











import tensorflow as tf 
import numpy as np 
sess = tf.InteractiveSession () 




















加 载 数据 ， 具 体 实现 细节 可 参考 14.2.4 节 ， 这 里 就 不 详细 说 明了 。 











from tensorflow.examples.tutorials.mnist import input data 
mist = input data.read data sets("./TensorFlowOnSpark/mist", one hot=True) 








1. 构 建 模型 


设置 训练 模型 的 超 参数 ， 学 习 速 率 ， 批 量 大 小 等 。 


learning rate = 0.01 
batch size = 128 


设置 循环 神经 网 络 的 参数 ， 包 括 输入 数 长 度 ， 输 入 的 步 数 ， 隐 藏 节点 数 ， 类 别 数 等 。 


n input 28 
n steps = 28 
n hidden = 256 
n classes = 10 


定义 输入 数据 及 权重 等 。 








laceholder (tf.float32, [None, n steps, n input]) 
aceholder (tf.float32, [None, n classes]) 






































于 
局 忆 





定义 权重 及 初始 化 偏 移 量 。 








# Classifier weights and biases 
w = tf.Variable (tf.truncated normal ([n hidden, n classes])) 
b = tf.Variable (tf.zeros([n classes])) 



































定义 并 初始 化 Input gate、Forget gate、Output gate、Memory cell 等 的 输入 数据 、 权 重 、 偏 移 量 ， 这 里 采用 tensorflow 中 truncated_normal 函 数 初始 化 相关 参数 值 。 











ix = tf.Variable (tf.truncated normal([n input, n higdden], -0.1, 0.1)) 
im = tf.Variable (tf.truncated normal([n hidden, n higdden], -0.1, 0.1)) 
ib = tf.Variable (tf.zeros([1, n hidden])) 

# Forget gate: input, previous output, and bias 

fx = tf.Variable (tf.truncated normal ([n input, n hidden], -0.1, 0.1)) 





# Input gate: input, previous output, and bias 
























































































































































































































































































































































fm = tf.Variable (tf.truncated normal ([n hidden，n hidden], -0.1, 0.1)) 

fb = tf.Variable (tf.zeros([1, n hidden])) 

# Memory cell: input, state, and bias 

cx = tf.Variable (tf.truncated normal([n input, n hidden], -0.1, 0.1)) 

cm = tf.Variable (tf.truncated normal([n hidden, n hidden], -0.1, 0.1)) 

cb = tf.Variable (tf.zeros([1, n hidden]) ) 

# Output gate: input, previous output, and bias 

ox = tf.Variable (tf.truncated normal([n input, n higdden], -0.1, 0.1)) 

om = tf.Variable (tf.truncated normal([n hidgden, n hidden], -0.1, 0.1)) 

ob = tf.Variable (tf.zeros([1, n hidden])) 

创建 循环 神经 网 络 结构 。 

def LSTMRNN (x, n steps, n input，Dn hidgden, n classes) : 

# 定义 LSTM 单 元 
def lstm cell(i, o, state): 

input gate = tf.sigmoid(tf.matmul (i, ix) + tf.matmul (o, im) + ib) 
forget gate = tf.sigmoid(tf.matmul (i, fx) + tf.matmul (o, fm) + fb) 
update = tf.tanh (tf.matmul (i, cx) + tf.matmul (o, cm) + cb) 
state forget gate * state + input gate * update 
output gate = tf.sigmoid(tf.matmul (i, ox) + tf.matmul (o, om) + ob) 
return output gate * tf.tanh(state), state 


# 把 状态 线 上 的 多 个 值 串联 起 来 





























outputs = list() 
state = tf.Variable (tf.zeros([batch size, n hidden])) 
output = tf.Variable (tf.zeros([batch size, n hidden])) 
















































































# 的 列表 ,这 样 适合 LMTM 的 输入 格式 。 

x = tf.transpose(x, [1, 0, 2]) 

X = tf.reshape (x, [-1l, n input]) 

x = tf.split(x, n steps, 0) 

for i in x: - 
output, state = lstm cel] 
outputs.append (output) 

logits =tf.matmul (outputs[-1], w) 


return logits 


2. 定 义 损失 函数 及 优化 器 














pred = LSTM 

cost tf.reduce mean (tf.nn.so 
optimizer = tf.train.AdamOp 
correct pred tf.equal (tf 
accuracy = tf.reduce mean (ti 


# Initial 












































+ b 


RNN (x, n steps, n input, n hidden, n cl] 
ftmax cross en 
timizer (learning rate= 


























L1 (i, output, state) 


lasses) 


输入 数据 x 用 函数 transpose 把 第 一 个 维度 与 第 二 个 维度 互 换 , 使 用 reshape 把 x 
# 变 为 (n steps*batch size,n input) 的 形状 ,然后 利 


] split 把 x 拆 成 长 度 为 n_steps 





tropy with ] 


ogits (logits=pred, labels=y)) 

















izing the variables 





init 且 二 








.argmax (pred,1), 七] 











f . argmax (y,1 











) ) 





f .Cast (correct Predy 七 





# Launch the graph 
sess.run (init) 


3. 








batch x, ba 





练 数据 及 评估 模型 


for step in range (10000) : 





f.global variables initializer () 


tch y = mnist.train.next batch (batch size) 


float32)) 


batch x = batch x.reshape((batch size, n steps, n input)) 
sess.run(optimizer, feed dict={x: batch x, y: batch y}) 





loss = sess.run(cost, 
PEIlnt 











if step $ 100 == 0: 
= sess.runl(accuracy, 








feed dict={x: bat 








print "Optimization Finished!" 


ed 


] 雪 1 








了 结果 ， 以 下 是 最 后 批 次 的 运行 结果 。 






































[ter " + str(step) + ", Minibatch ] 























Loss= " +"{:.6 
Accuracy= 0.97656 
Accuracy= 0.96875 
Accuracy= 0.97656 
Accuracy= 1.00000 
Accuracy= 0.98438 
Accuracy= 0.99219 
Accuracy= 0.99219 
Accuracy= 0.98438 
Accuracy= 0.98438 
Accuracy= 0.99219 
Accuracy= 0.98438 
Accuracy= 0.97656 
Accuracy= 0.98438 
Accuracy= 0.99219 
Accuracy= 0.98438 
Accuracy= 1.00000 
Accuracy= 0.98438 
Accuracy= 0.97656 
Accuracy= 1.00000 
Accuracy= 1.00000 





Iter 8000, Minibatch Loss= 0.085752, Training 
Iter 8100, Minibatch Loss= 0.065435, Training 
Iter 8200, Minibatch Loss= 0.088926, Training 
Iter 8300, Minibatch Loss= 0.039572, Training 
Iter 8400, Minibatch Loss= 0.050593, Training 
Iter 8500, Minibatch Loss= 0.030424, Training 
Iter 8600, Minibatch Loss= 0.026174, Training 
Iter 8700, Minibatch Loss= 0.045043, Training 
Iter 8800, Minibatch Loss= 0.031143, Training 
Iter 8900, Minibatch Loss= 0.055115, Training 
Iter 9000, Minibatch Loss= 0.061676, Training 
Iter 9100, Minibatch Loss= 0.123581, Training 
Iter 9200, Minibatch Loss= 0.057620, Training 
Iter 9300, Minibatch Loss= 0.043013, Training 
Iter 9400, Minibatch Loss= 0.067405, Training 
Iter 9500, Minibatch Loss= 0.020679, Training 
Iter 9600, Minibatch Loss= 0.079038, Training 
Iter 9700, Minibatch Loss= 0.080076, Training 
Iter 9800, Minibatch Loss= 0.010582, Training 
Iter 9900, Minibatch Loss= 0.019426, Training 
Optimization Finished! 

在 测试 集 上 验证 模型 : 

# Calculate accuracy for 128 mnist test images 








Les 


t len = batch size 








Les 








Les 








t data = mist.tes 
t label = mist.test.labels|:tes 








len] 


rint "Testing Accuracy:", sess.run(accuracy, 
y 


运行 结果 如 下 ， 这 个 结果 虽然 比 CNN 结 果 低 些 ， 但 也 是 不 错 的 一 个 结果 。 


14.4 ”分布 式 TensorFlow 


2016 年 4 月 14 日 ，Google 发 布 了 分 布 式 TensorFlow， 能 够 支持 在 几 百 台 机 器 上 并 行 训 











看 tch x, y: batch y}) 
feed dict={x: batch x, y: batch y}) 


earning rate) .minimize (cost) 








EE, 














format (loss) + ", Training Accuracy= " + "{:.5f}".format (acc) 

















t.images[:test len] .reshape ((-1，Dn steps, n input)) 


feed dict={x: test data, y: test label}) 





练 。 分 布 式 的 TensorFlow 由 高 性 能 的 gRPC 库 作为 底层 技术 支持 。 


14.4.1 ”客户 端 、 主 节点 和 工作 节点 间 的 关系 


分 布 式 架构 主要 由 客户 端 (Client) 和 服务 端 组 成 ， 服 务 端 又 包括 主 节点 (Master) 和 工作 节点 (Worker) ， 这 个 与 Spark 集 群 系统 有 点 类 似 ， 它 们 间 的 交互 过 程 ， 如 图 14-18 所 示 。 


Worker /Job:worker/task:0 





Worker/Job:ps/task:0 





图 14-18 TensotFlow 系 统 各 组 件 交互 


如 图 14-18 所 示 ， 假 设 在 工作 节点 存在 两 个 任务 : 
. /job: ps/task: 0: 负责 模型 参数 的 存储 和 更 新 。 
. /job: worker/task: 0: 负责 模型 的 训练 或 推理 。 


这 些 组 件 功能 及 交互 关系 如 下 : 


Client: Client 基 于 TensofFlow 的 编程 接口 ， 构 造 计算 图 。 目 前 ，TensorFlow 主 流 支 持 Python 和 C++ 等 编程 接口 ，TensotFlow 并 非 立 即 执行 计算 。 直 至 建立 Session 会 话 ， 并 以 Session 为 桥梁 ， 建 立 Client 与 


: Mastet: 在 分 布 式 的 运行 时 环境 中 ，Master 根 据 Session.run 的 Fetching 参 数 ， 从 计算 图 中 反 向 人 遍历， 找到 所 依赖 的 最 小 子 图 。 然 后 Mastet 负 责 将 该 子 图 再 次 分 裂 为 多 个 子 图 片段 ， 以 便 在 不 同 的 进程 和 设 


备 上 运行 这 些 子 图 片段 。 最 后 ，Mastet 将 这 些 图 片段 派发 给 Wotk Setvice。 随 后 Wotk Service 启 动 “ 本 地 子 图 ”的 执行 过 程 。 


.Wotkef: 对 于 每 个 任务 ， 都 存在 相应 的 Wotket Setrvice， 它 主要 负责 3 个 方面 的 职责 ， 包 括 处 理 来 自 Mastet 的 请 求 ; 调度 OP 的 Kernel 实 现 ， 执 行 本 地 子 图 ; 协同 任务 之 间 的 数据 通信 。 


14.4.2 分布 式 模式 


常用 的 深度 学 习 训 练 模型 为 数据 并 行 化 ， 即 TensorFlow 任 务 采 用 相同 的 训练 模型 在 不 同 的 小 批量 数据 集 上 进行 训练 ， 然 后 在 参数 服务 器 上 更 新 模型 的 共享 参数 。TensorFlow 支 持 同 步 训练 和 异步 训练 
两 种 模型 训练 方式 。 


异步 训练 即 TensorFlow 上 每 个 节点 上 的 任务 为 独立 训练 方式 ， 不 需要 执行 协调 操作 ， 如 图 14-19 所 示 。 





Parameter Device (s) 

























Device A Device B Device C 





图 14-19 ”TensotFlow 异 步 数据 并 行 处 理 架 构 


同步 训练 为 TensorFlow 上 每 个 节点 上 的 任务 需要 读 入 共享 参数 ， 执 行 并 行 化 的 梯度 计算 ， 然 后 将 所 有 共享 参数 进行 合并 ， 如 图 14-20 所 示 。 





Parameter Device (S) 





Device B 





Device C 





图 14-20 ”TensorFlow 同 步 数 据 并 行 处 理 架 构 


14.4.3 ”在 Pyspark 集 群 环境 运行 TensorFlow 


这 节 将 通过 神经 网 络 来 模拟 一 个 一 元 二 次 方程 : y=X2-0.5， 
TensorFlowOnSpark 的 详细 配置 ， 请 参考 14.4 节 。 已 集群 方式 启动 PySpark: 


pyspark --master spark://master:7077 --driver-memory 1G --total-executor-cores 2 








进入 PySpark 的 交换 界面 : 





import tensorflow as tf 
import numpy as np 
import matplotlib.pyplot as pilt 


# 构 造 满足 一 元 二 次 方程 的 函数 

















x data = np.linspace(-1, 1, 300) [:, np.newaxis] 
# 加 入 一 些 噪 声 


noise = np.random.normal (0, 0.05, x data.shape) 





y data = np.square (x data) - 0.5 + noise 
# 面 出 散 点 图 
fig=plt.figure() 











ax=fig.add subplot (1,1,1) 
ax.scatter (x data,y data) 








散 点 效果 图 如 图 14-21 所 示 。 
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图 14-21 一 元 二 ， 

构造 一 个 神经 网 络 : 
xs = tf.placeholgder (tf.float32, [None, 1]) 
YS = tf. laceholder (tf.float32, [None, 1]) 
# 定 义 添 加 层 的 函数 
def add layer (inputs，in size, out size, activation function=None): 

weights = tf.Variable (tf.random normal([in size, out sizel])) 

biases = tf.Variable (tf.zeros([1, out size]) + 0.1) 

Wx plus b = tf.matmul (inputs, weights) + biases 

if activation function is None: 

outputs = Wx plus b 
else 
outputs = activation function (Wx plus b) 

return outputs 
# 构 造 输入 层 为 1, 隐藏 层 20 个 ,输出 层 为 1 的 神经 网 络 
hl = add layer (xs, 1, 20, activation function=tf.nn.relu) 
# 构 造 输出 层 , 隐 含 层 的 输出 为 输出 层 的 输入 
prediction = add layer (hl, 20, 1, activation function=None) 
# 计 算 损 失 值 
loss = tf.reduce mean(tf.reduce suml(tf.square(ys - prediction),reduction indices=[1])) 
train step = tf.train.GradientDescentOptimizer (0.1) .minimize (loss) 
# 初 始 化 所 以 变量 
init = tf.global variables initializer() 
sess = tf.Session () 


sess.run (init) 
# 训 练 1000 次 








for i in range (1000) 


. 
. 





sess.runl(train s 
if i %$ 50 == 0: 
print (sess.r 








tep, feed dict={xs: x data, ys: y data}) 





un (loss, 











prediction value=sess.run (prediction, 








lines=ax.plot (x data,prediction value 'r',1w=5) 





模拟 结果 如 图 14-22 所 示 。 


feed dict={xs: x data, ys: y data})) 
feed dict={xs:x data}) 





-1.00 -0.7$ 0.50 -025 0.00 0.25 0.50 0.75 1.00 


图 14-22 ”使 用 TensorFlow 神 经 网 络 模拟 的 结果 


102.758 
0.00996406 








0.00309145 
0.00284696 
0.00267657 
0.00255845 
0.0024702 

0.00240239 
0.00235583 
0.00232014 
0.00229183 
0.00226797 
0.00224843 





14.5 TensorFlowOnSpark 架 构 


TensorFlowOnSpark (TFoS) 支持 TensorFlow 在 Spark 和 Hadoop 上 的 分 布 式 运 行 。 如 图 14-23 所 示 ，TFoS 与 SparkSQL、MLlib 以 及 其 他 的 Spark 库 一 起 在 一 个 项 目 或 线程 中 运行 。 


CaffeOnSpark MLlibfor | Hiveor 
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learning learning Data Analysis 
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Hadoop Datasets 





图 14-23 ”TFoS 在 Spark 集 群 上 
TFoS 支 持 所 有 类 型 的 TensorFlow 程 序 ， 能 实现 同步 和 异步 的 训练 与 推理 ， 并 且 支 持 模型 和 数据 的 平行 处 理 ， 以 及 TensorFlow 工 具 (如 TensorBoard) 在 Spark 群 集 上 的 使 用 。 


任何 TensorFlow 程 序 都 能 够 通过 修改 实现 在 TFoS 上 的 运行 ， 通 常情 况 下 ， 只 需要 修改 少 于 10 行 的 Python 代 码 。TFoS 支 持 张 量 (tensor) 在 TensorFlow 处 理 过 程 中 (计算 节点 和 参数 服务 节点 ) 信息 
的 直接 沟通 。 过 程 到 过 程 (Process-to-process) 的 直接 沟通 机 制 使 TFoS 项 目 很 容易 在 增加 的 机 器 上 进行 扩展 。 如 图 14-24 所 示 ，TFoS 不 需要 Spark 驱 动 器 (driver) 参与 到 张 量 沟通 中 来 ， 因 此 也 就 具备 
了 类 似 于 独立 TensorFlow 和 群集 的 扩展 能 力 。 


Parameter Server 
TensorFlow Core 


Data Set HDFS etc. 





图 14-24 TensorFlowOnSpatk 的 系统 架构 


TFoS 曾 做 过 一 个 图 像 分 类 实验 ， 以 同一 准确 度 作为 评估 标准 ，0.730 的 精确 度 需 要 单 计算 节点 运行 46 小 时 得 到 ; 双 计 算 节 点 需要 22.5 个 小 时 ， 精 确 度 为 0.814; 4 计算 机 点 需要 13 小 时 ， 精 确 度 为 0.854; 
8 计算 节点 需要 7.5 个 小 时 ， 精 确 度 为 0.879。 在 Inception 模 型 训练 上 ，TFos 几 乎 能 达到 线性 扩展 ， 结 果 鼓 舞 人 心 ， 以 上 图 像 分 类 实验 结果 如 图 14-25 所 示 。 
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图 14-25 ”Inception 图 像 分 类 网 络 TFoS 训 练 时 间 与 workers 数 量 间 的 关系 


14.6 TensorFlowOnSpark 安 六 


安装 TensorFlowOnSpark， 采 用 pip 管 理工 具 进 行 安装 ， 默 认 安 装 是 1.0 版 本 。 











pip install tensorflowonspark 


执行 以 上 命令 后 ， 在 用 户 当 前 目录 下 ， 将 新 增 一 个 TensorFlowOnSpark 目 录 。 


然后 ， 在 .bashrc 定 义 该 路 径 。 








export TFoS HOME=/home/hadoop/TensorFlowOonSpark 


可 以 通过 pyspark 环 境 来 验证 ， 以 上 2 个 安装 是 否 成 功 。 





pyspark 
>>> import tensorflow as tf 
>>> from tensorflowonspark import TFCluster 


























导入 这 些 库 ， 如 果 没 有 异常 ， 说 明 安 装 成 功 。 接 下 来 开始 为 训练 数据 做 一 些 准 备 工作 。 


对 scripts 目 录 进 行 打 包 ， 便 于 把 该 包 发 布 到 各 worker 上 


cd TensorFlowOnSpark/scripts 
zip -r http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/../tfspark.zip * 























14.7 TensorFlowOnSpark 实 例 


使 用 TensorFlowOnSpark 对 MNIST 数 据 进 行 预测 ，MNIST 是 一 个 手写 数字 数据 库 ， 它 有 60000 个 训练 样本 集 和 10000 个 测试 样本 集 ，train-images-idx3-ubyte.gz、train-labels-idx1-ubyte.gz 等 四 
个 文件 。 这 些 图 像 数据 都 保存 在 二 进 制 文件 中 。 每 个 样本 图 像 的 宽 高 为 28*28。 


下 载 MNIST 数 据 : 





mkdir ${TFoS HOME } /mnist 
pushd ${TFoS HOME}/mnist 
curl -O "nttp://yann.lecun.com/exdb/mist/train-images-idx3-ubyte.gz" 
curl -0O "http://yann.lecun.com/exdb/mnist/train-labels-idxl-ubyte.gz" 
curl -0 "http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz" 
curl -O "http://yann.lecun.com/exdb/mnist/t10k-labels-idxl-ubyte.gz" 
popd 













































































14.7.1 TensorFlowOnSpark 单 机 模式 实例 


设置 本 机 相关 参数 ， 在 单机 上 启动 一 个 master 节 点 ， 两 个 worker 节 点 。 





export 
export 





export CORES P 








Che Gt 


export 








MASTER=spark://$ (hostname) :7077 


SPARK WORKER INSTANCES=2 


























$ {SPAI 





ER WORKER=1 





3 























TOTAL CORES=$ ((${CORES PER WORKER}*${SPARK WORKER INSTANCES})) 


























MF}/sbin/start-master.sh; ${SPARK HOME}/sbin/start-slave.sh -c $COR 


ES 








PER WORK] 





ER -m 2G $ {MASTER} 








启动 以 后 ， 通 过 jps 可 以 看 到 如 下 一 些 进程 。 一 个 master， 两 个 worker，namenode 是 之 前 启动 hadoop 的 进程 。 


[hadoop@master ~]$ jps 


25157 Master 
25258 Worker 
27229 RunJar 
26893 NameNode 


271087 SecondaryNameNode 


13071 Jps 
25215 Worker 


相关 服务 起 来 后 ， 接 下 来 把 MNIST 数 据 上 传 到 HDFS 上 ， 并 把 数据 转换 cvs 格 式 。 


${SPARK HOME}/bin/spark-submit --master spark://master:7077 ${TFoS HOMI 











运行 完成 后 ， 通 过 hadoop fs 命令 可 以 在 HDFS 上 看 到 如 下 信息 : 


hadoop fs -ls /user/hadoop/examples/mnist/csv/train/images 





Found 11 items 
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数据 加 载 转换 成 功 后 ， 开 始 训 


hado 
hado 
hado 
hado 
hado 
hado 
hado 
hado 
hado 
hado 
hado 


op S 
op S 
op S 
op S 
op S 
op S 
op S 
op s 
op Ss 
op S 
op S 


upPergroup 0 2017-06-] 











upPergroup 9338236 2017-06-] 
Upergroup 11231804 2017-06-] 











uPergroup 11214784 2017-06-] 
Upergroup 11226100 2017-06-] 





uPergroup 11212767 2017-06-] 





upPergroup 11173834 2017-06-] 














upPergroup 11214285 2017-06-] 
upPergroup 11201024 2017-06-] 

















uPergroup 11194141 2017-06-] 























upPergroup 10449019 2017-06-] 


5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 
5 23:21 /user/hadoop/exam 














练 数据 。 


${SPARK HOME}/bin/spark-submit \ 











--master ${MASTER} \ 


--Dy-files ${TFoS HOM 
--Conf spark.cores.max=${TOTAL CORES} \ 

US=$ {CORES PER WORKER} \ 
Env .JAVA HOME="$JAVA HOME" \ 


--Conf spark.task.cp 
-Conf spark.executor 





















































$ {TFOS HOME}/examples/mnist/spark/mist spark.py \ 


--cluster size ${SPAI 
les/mnis 
les/mnis 


--ijmages examp 
—--labels examp 
-format csv AN 
--moqe train \ 




















--model mnist model 














RK WORKER INSTANCES} \ 














t/csv/train/images \ 








t/csv/train/labels \ 


运行 完成 后 ， 可 以 看 到 如 下 内 容 : 


2017=06-18 05 30>507072 
2017=-006-180"05: 322507)635 
2017-06-18 05:32:07,883 
2017-06-18T057332:713 460161 ===se Stog 




















如 果 运 行 过 程 中 ， 过 程 被 上 不， 可 以 调整 mnist_dist.py 文 件 中 两 处 代码 (在 115，125 行 


训 























练 完成 后 ， 接 下 来 就 是 用 测试 集 验证 模型 ， 并 对 结果 进行 预测 。 


${SPARK HOME.}/bin/spark-submit \ 








--master ${MASTER} \ 


-py-files ${TFoOS 
-Conf spark.cores 


--Conf spark.task.cp 
--Conf spark.execut 

















HOMI 












































${TFoOS HOME}/examples/mnist/spark/mnist spark.py \ 


--CcCluster size ${SPAI 
les/mnis 
les/mnis 


--ijmages examp 
—--labels examp 











-—mode inference \ 








—-format csv \ 

















RK WORKER INSTANCES} \ 














t/csv/test/images \ 











--moqel mnist mogdel \ 
--output predictions 





t/csv/test/labels \ 


运行 完成 以 后 ， 在 HDFS 上 ， 就 可 看 到 predictions 目 录 及 相关 内 容 。 


[hadoop@master 
17/06/20 02:45 
Found 11 items 
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spark]$ hadoop fs -ls /user/hadoop/prediction 


D7 WARN 


hado 
hado 
hado 
hado 
hado 
hado 
hado 








op 
op 
op 
op 
op 


op 


hadoop 
hadoop 
hadoop 
hadoop 


S 
S 
S 
S 
S 
op S 
S 
S 
S 
S 
S 


S 


INFO (MainThread-25741) Feeding training data 
INFO (MainThread-25741) Stopping TensorFlow nodes 
INFO (MainThread-25741) Shutting down cluster 








les/m 
|es/m 
|es/m 
|es/m 
|es/m 
|es/m 
|es/m 
|es/m 
|es/m 
|es/m 
|es/m 











证 


各 
jis 
is 
jis 
jis 
jis 
jis 
iS 
jis 
is 
jis 





EF}/tfspark.zip,${TFoS HOME}/examples/mnist/spark/mist dist.py \ 


EF}/tfspark.zip, ${TFoS HOME}/examples/mnist/spark/mist dist.py \ 
.max=$ {TOTAL CORES} \ 

Us=$ {CORES PER WORKER} \ 
OrEnv .JAVA HOME="$JAVA HOME" \ 





t/csv/ 


train 





t/csv/ 


train 





t/csv/ 


train 





t/csv/ 


train 





E/ESY/ 


train 





t/csv/ 


train 





t/csv/ 


train 





t/csv/ 


train 





t/csv/ 


train 





t/csv/ 





train 











t/csv/ 


train 





/ im 
/ im 
/ im 
/im 
/ im 
/ im 
/im 
/ im 
/ im 
/ im 
/ im 



















































































util.NativeCodeLoader: Unable to load native-hadoop library for your plat 
upergroup 0 2017-06-18 14:04 /user/hadoop/predictions/ SUCCESS 

upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00000 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00001 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00002 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00003 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00004 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00005 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00006 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00007 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00008 
upergroup 51000 2017-06-18 14:04 /user/hadoop/predictions/part-00009 


























打开 其 中 一 个 文件 ， 可 以 看 到 预测 结果 信息 。 


2017-U6- L0705: 
2017-06-18T05: 
2017-006-18T05: 
2047=-06=-18105: 
2017-06-18T05 : 
2947-06=19 了 0U5: 
2017-06=18T05: 





























Pa A 














42.397905 Label: 5, Prediction: 5 
42.397923 Label: 9, Prediction: 8 
42.397941 Label: 7, Prediction: 5 
42.397958 Label: 3, Prediction: 5 
42.397976 Label: 4, Prediction: 8 
42.397993 Label: 9, Prediction: 8 
42.398012 Label: 6, Prediction: 5 



































ages/ SUCCESS 

ages/part-00000 
ages/part-00001 
ages/part-00002 
ages/part-00003 
ages/part-00004 
ages/part-00005 
ages/part-00006 
ages/part-00007 
ages/part-00008 
ages/part-00009 





， 将 logdir=logdir 改 为 logdir=None。 


formhttp://www.hzcourse.com/resource/read] 





E}/examples/mnist/mist data setup.py --output /examples/mnist/csv --format csv 











Book?path=/openresources/teach ebook/ur 


14.7.2 TensorFlowOnspark 集 群 模式 实例 


设置 本 机 相关 参数 ， 再 以 集群 方式 启动 Spark， 一 个 master 节 点 ，slave1、slave2 作 为 两 个 worker 节 点 ， 各 节点 资源 配置 信息 如 图 14-26 所 示 。 


Spark ,,，spark Master at spark://master:7077 


URL: spark://master:7077 

REST URL: spark://master6066 (cluster mode) 
Alive Workers: 2 

Cores in use: 4 Total, 0 Used 

Memory in use: 5.5 GB Total, 0.0 B Used 
Applications: 0 Running, 3 Completed 
Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 
Worker Id Address State Cores Memory 
worker-20170620061235-192.168.1.115-35807 192.168.1.119-35907 ALIVE 2 (0 Used) 2.7 GB (0.0 B Used) 
worker-20170620061236-192.168.1.114-44796 192.168.1.114:44796 ALIVE 2 (0 Used) 2.7 GB (0.0 B Used) 


图 14-26 ”TensorFlowOnSpatk 集 群 模型 运行 监控 图 


训练 模型 





${SPARK HOME ] /bin/spark-submit \ 

--master spark://master:7077 \ 

--py-files ${TFoOS HOME}/tfspark.zip,${TFoS HOME}/examples/mnist/spark/mnist dist.py \ 
--Conf spark.cores.max=4 \ 

--Conf spark.task.cpus=2 \ 

--Conf spark.executorEnv.JAVA HOME="$JAVA HOME" \ 

--Conf spark.executorEnv.LD LIBRARY PATH="${JAVA HOME}/jre/lib/amd64/server" \ 

--cConf spark.executorEnv.CLASSPATH="$ (SHADOOP HOME/bin/hadoop classpath --glob):${CLASSPATH}" \ 
${TFoOS HOME}/examples/mnist/spark/mnist spark.py \ 

--ClLuster size 2 \ 

--images examples/mnist/csv/train/images \ 

-labels examples/mnist/csv/train/labels \\ 

—-format csv \ 

--moqe train \ 

--model mnist model 














tt Em 




































































测试 模型 : 





${SPARK HOME ] /bin/spark-submit \ 

--master ${MASTER} \ 

--py-files ${TFoOS HOME}/tfspark.zip,${TFoS HOME}/examples/mnist/spark/mist dist.py \ 
--Conf spark.cores.max=4 \ 

--Conf spark.task.cpus=2 \ 

--Conf spark.executorEnv.JAVA HOME="$JAVA HOME" \ 
${TFoOS HOME}/examples/mnist/spark/mnist spark.py \ 
--Cluster size 2 \ 

--jimages examples/mnist/csv/test/images \ 

-labels examples/mnist/csv/test/labels \ 

--mode inference \ 

--Eormat csv \ 

--moqel mnist model \ 

--output predictions 




















































































































查看 运行 结果 

$ hadoop fs -ls /user/hadoop/predictions 

Found 11 items 

-rw-r--r-- 1 hadoop supergroup 0 2017-06-20 08:55 /user/hadoop/predictions/ SUCCESS 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00000 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00001 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00002 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00003 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00004 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00005 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00006 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00007 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00008 
-rw-r--r-- 1 hadoop supergroup 51000 2017-06-20 08:55 /user/hadoop/predictions/part-00009 


























017-06-20T08:55:06. 398866 Label: 9，Prediction: 
017-06-20T08:55:06. 398877 el: 9 Prediction: 
2017-06-20T08:55 :06. 398888 Label: 5, Prediction: 
2U111--06-201I08:55:06. J98899 Label: 5，Predict1lion: 
2017-06-20T08:55 :06. 398911 bel: Prediction: 
017-06-20T08:55:06.398922 Label: 5, Prediction: 
A pA 398933 Label: 6，Prediction: 
2017-06-20T08:55:06. 398945 Label: 0，Prediction: 
2017-06-20T08:55:06. 398956 el: 3, Prediction: 





: :54 mmist dist.py 
| hadoop re 4926 Jun 2 :54 mist dist.pyc 
hadoop hadoop 3504 Jun ° :54 mist spark py 
hadoop hadoop 14650 Jun : :55 stderr 
| hadoop hadoop 0 Jun s -54 stdout 
-x 2 hadoop hadoop 4096 Jun 2 :55 tensorboard 1 
| hadoop hadoop 19016 Jun 20 :54 tfspark. zip 





为 了 弥补 Spark 机 器 学 习 中 ， 和 缺乏 神经 网 络 、 深 度 学 习 等 的 不 足 ， 这 章 我 们 介绍 脱胎 于 AlphaGo 的 深度 学 习 框架 TensorFlow ， 以 基础 知识 为 主 ， 在 这 个 基础 上 介绍 了 使 用 TensorFlow 的 几 个 实例 ， 最 
后 介绍 TensorFlow 的 分 布 式 架构 及 与 Spark 整 合 的 架构 TensorFlowOnspark。 


顾名思义 ， 向 量 即 一 个 有 方向 的 量 。 那 量 怎么 解释 呢 ? 一 一 就 是 把 数 排 成 一 列 吧 ? 比如 : 
223 .4659 其 中 P 就 是 二 维 向 量 ，q 就 是 三 维 向 量 。 

人 ;六 本 书 中 沙 及 的 向 量 ， 才 是“ 列 向 量 ”， 也 就 是 行 向 旺 增加 了 T 竺 导 _ 配置 符号 
定义 向 量 的 数据 结构 ， 就 要 定义 他 们 的 运算 了 ， 向 量 的 加 法 和 数量 乘法 如 下 : 


加 法 (前提 是 两 者 具有 相同 维 数 ) : 





Os 如 下 的 向 量 运 算 并 不 成 立 : 
ER 
Re 这 个 就 过 扯 到 向 量 的 几何 意义 了 。 


A.1.2 空间 
其 实 向 量 的 几何 意义 ， 就 是 空间 中 的 矢量 : 有 方向 的 线段 一 一 满足 两 个 条 件 : @ 量 、@ 方 向 。 
2 维 向 量 可 以 在 方 格 纸 上 描画 出 来 ， 比 如 (3，6) 表示 横 坐标 为 3， 纵 坐标 为 6 的 2 维 向 量 。 而 原点 表示 横 纵 坐标 均 为 0 的 零 向 量 。 


像 这 样 强调 向 量 的 位 置 的 时 候 ， 也 称 为 位 置 向 量 。 
那 这 个 位 置 向 量 怎 么 跟 有 向 线段 结合 起 来 的 呢 ? 我 们 可 以 定义 所 有 的 位 置 向 量 都 以 原点 为 起 始点 ， 终 点 是 该 向 量 对 应 的 位 置 。 在 用 有 向 线段 来 解释 向 量 的 情况 下 ， 就 可 以 通过 图 形 来 了 解 向 量 的 加 法 和 
数量 乘法 。 这 时 ， 向 量 加 法 就 变 成 了 线段 的 连接 ， 数 量 乘法 就 变 成 了 线段 的 伸缩 。 


A2 ”和 矩阵 和 行列 式 
A.2.1 和 矩阵 
既然 我 们 已 经 引入 了 向 量 的 概念 ， 接 下 来 要 关心 的 就 是 对 象 之 间 的 关系 ， 为 了 表示 这 种 关系 ， 我 们 导入 矩阵 的 概念 。 


那么 什么 是 矩阵 ”一 一 把 数 排列 成 长 方形 就 是 和 矩阵。 比如 : 





以 上 的 矩阵 分 别 是 2x2 和 2x3 的 矩阵， 同时 ，2x2 的 又 叫 2 阶 方 阵 〈 和 矩阵 的 行 和 列 的 维 数 相等 ， 就 叫 方 阵 ) 。 


矩阵 A 中 第 i 行 第 列 的 值 ， 称 为 该 矩阵 A 的 〈i，j) 元 素 ， 比 如 上 例 中 第 二 个 矩阵 (2，2) 为 8， (2，1) 为 4， 当 提 到 (i, j) 元 素 时 ， 是 先行 后 列 的 顺序 ， 按 照 下 式 中 的 规则 书写 的 时 候 ， 变 量 的 下 标 一 


般 也 是 先行 后 列 的 顺序 。 


和 矩阵 的 加 法 和 数量 乘法 和 向 量 类 似 ， 加 法 就 是 对 应 元 素 相 加 (前提 是 行列 一 致 ) ， 乘 法 就 是 数量 乘 以 矩阵 中 的 每 个 元 素 ， 如 下 所 示 : 


Ul +hi 


Ul 和 Wn ml 和 0 Cl D 
Li 1 Ui) CLII ”CO 
c| : |=| : 
Ul 0 Co CU CU 


下 面 的 运算 规则 ， 和 向 量 的 运算 是 完全 一 样 的 : 





) A+3B= 


但 是 如 果 是 两 个 和 矩阵 相 乘 ， 情 况 就 完全 不 同 了 。 


比如 ， 对 于 mxn 维 矩阵 与 n 维 向 量 (nx 1 的 和 矩阵 ) ， 有 : 











CI ”车 省 AQ yt a y, 


Cl | Cn 是 1 \ Ci 十 “any 


关于 和 矩阵 和 向 量 乘积 ， 有 几 点 需要 注意 : 

“ 答 阵 与 向 量 的 乘积 是 向 量 。 

“ 矩阵 的 列 数 〈 宽 度 ) 为 输入 的 向 量 维 数 ， 行 数 ( 高 度 ) 为 输出 的 向 量 维 数 。 
总 而 言 之 ， 和 矩阵 就 是 一 种 表示 平 直 关系 的 便利 手段 。 

关于 这 种 平 直 关 系 怎么 体现 ， 我 们 举 个 例子 来 说 明 : 


现 有 一 答 ， 其 中 有 鸡 X 允 只 ， 兔 X 免 只 ， 笼 中 头 的 总 数 Yy 和 脚 的 总 数 Y 婴 ， 可 得 : 


Yy. a 头 鸡 挟 鸡 ta 头 鸡 插 锡 入 邓 十 入 各 


Yj 二 G4 脚 鸡 广 鸡 十 4 脚 鸡 证 免 二 2X 她 十 4 所 


其 中 鸡 和 免 都 是 一 个 头 ， 所 以 X 前 面 的 系数 是 1。 而 al 趣 旺 示 一 只 鸡 两 只 脚 ，a 脚 免 表示 一 只 免 子 四 条 腿 。 以 上 的 方程 如 果 用 和 矩阵 表示 就 是 这 样子 的 : 


1 1 /xX 


米 ， 


2 4) \AXa 


和 矩 阵 给 出 了 头 和 脚 之 间 的 函数 对 应 关系 。 也 就 是 说 ， 如 果 我 们 找到 了 某 个 对 应 和 矩 阵 A， 束 能 找到 Y 与 X (这 里 是 头 和 脚 ) 的 对 应 关系 。 说 白 了 ， 和 矩阵 就 是 一 种 映射 。 






人 | [4 的 ”4 免 || 全 殉 


7 /GQ 网 鸡 ”Q 脚 免 八 福 负 


A.2.2 行列 式 


我 们 回 到 上 面 ， 来 看 鸡 和 兔子 的 头 和 脚 的 对 应 关系 : 


| Yy Uy. 鸡 d 头 免 | A | | 六 太 鸡 


} 和 i / \Q 役 鸡 ”Q 肢 免 八 ZX 免 / \2 44/ 【XX 


我 们 假设 头 和 脚 对 应 的 向 量 跟 坐 标 轴 围 成 一 个 体积 大 于 零 的 立方 体 ， 而 鸡 和 兔子 的 只 数 表示 其 对 应 的 向 量 跟 坐 标 轴 围 成 的 男 外 一 个 体积 大 于 零 的 立方 体 。 而 中 间 和 矩 阵 表 示 的 是 两 者 的 映射 ， 而 对 它 取 行 
列 式 的 话 ， 就 是 指 两 个 体积 之 间 的 倍数 关系 一 一 体积 的 扩大 率 。 


行列 式 有 如 下 性 质 : 

性 质 1 行 列 互 换 ， 行 列 式 不 变 。 

性 质 1 表 明 ， 在 行列 式 中 行 与 列 的 地 位 是 对 称 的 ， 因 而 凡是 有 关 行 的 性 质 ， 对 列 也 同样 成 立 。 例 如 由 (8) 即 得 下 三 角形 的 行列 式 

性 质 2 如 果 行 列 式 中 一 行为 零 ， 那 么 行列 式 为 零 。 

这 就 是 说 ， 一 行 的 公 因子 可 以 提出 去 ， 或 者 说 以 一 个 数 乘 行列 式 的 一 行 相当 于 用 这 个 数 乘 此 行列 式 。 于 是 ， 就 有 如 果 行 列 式 中 一 行为 零 ， 那 么 行列 式 为 零 。 
性 质 3 


这 就 是 说 ， 如 果 某 一 行 是 两 组 数 的 和 ， 那 么 这 个 行列 式 就 等 于 两 个 行列 式 的 和 ， 而 这 两 个 行列 式 除 这 一 行 以 外 全 与 原来 行列 式 的 对 应 的 行 一 样 。 


性 质 3 显 然 可 以 推广 到 某 一 行为 多 组 数 的 和 的 情形 。 

性 质 4 如 果 行 列 式 中 有 两 行 相同 ， 那 么 行列 式 为 零 。 所 谓 两 行 相同 就 是 说 两 行 的 对 应 元 素 都 相等 。 
性 质 5 如 果 行 列 式 中 两 行 成 比例 ， 那 么 行列 式 为 零 。 

性 质 6 把 一 行 的 倍数 加 到 另 一 行 ， 行 列 式 不 变 。 

性 质 7 对 换行 列 式 中 两 行 的 位 置 ， 行 列 式 反 号 。 


行列 式 和 和 矩阵 将 我 们 研究 的 机 器 学 习 问题 从 低 维 延 伸 到 高 维 。 使 得 很 多 本 来 在 低 维 无 解 的 机 器 学 习 方 法 ， 在 高 维 能 找到 答案 (比如 SVM) 。 


A.3 ”特征 值 与 特征 向 量 


一 般 而 言 ， 对 于 方 阵 A， 满 足 : 

AP= 和 Np，pz0 的 数 和 和 非 零 向 量 p 分 别称 为 特征 值 和 特征 向 量 。 

关于 特征 值 和 特征 向 量 有 以 下 两 个 性 质 : 

1 和 矩阵 不 同 的 特征 值 对 应 的 特征 向 量 线性 无 关 。 

2 如 果 nxn 和 矩阵 A 的 特征 多 项 式 有 不 同 的 根 ， 则 A 有 n 个 线性 无 关 的 特征 向 量 。 


从 几何 学 意义 上 讲 ， 任 意 一 个 和 矩阵 乘法 对 应 了 一 个 变换 ， 是 把 任意 一 个 向 量变 成 另 一 个 方向 或 长 度 都 大 不 相同 的 新 向 量 。 在 这 个 变换 的 过 程 中 ， 原 向 量 主 要 发 生 旋转 、 伸 缩 的 变化 。 如 果 和 矩 阵 对 某 一 个 
向 量 或 某 些 向 量 只 发 生 伸缩 变换 ， 不 对 这 些 向 量 产生 旋转 的 效果 ， 那 么 这 些 向 量 就 称 为 这 个 和 矩阵 的 特征 向 量 ， 什 缩 的 比例 就 是 特征 值 。 


实际 上 ， 上 述 的 一 段 话 既 讲 了 矩阵 变换 特征 值 及 特征 向 量 的 几何 意义 (图 形变 换 ) 也 讲 了 其 物理 含义 。 物 理 的 含义 就 是 运动 的 图 景 : 特征 向 量 在 一 个 和 矩阵 的 作用 下 作 伟 缩 运动 ， 伸 缩 的 幅度 由 特征 值 确 
。 特 征 值 大 于 1， 所 有 属于 此 特征 值 的 特征 向 量 身 形 暴 长 ; 特征 值 大 于 0 小 于 1， 特 征 向 量 身 形 猛 缩 ; 特征 值 小 于 0， 特 征 向 量 缩 过 了 界 ， 反 方向 到 0 点 那 边 去 了 。 


[all 


特征 值 和 特征 向 量 的 计算 : 


对 于 任意 方 阵 A， 首 先 求 出 方程 入 E-A|=0 的 解 ， 这 些 解 就 是 A 的 特征 值 ， 再 将 其 分 别 代入 方程 《和 E-A) p=0 中 ， 求 得 它们 所 对 应 的 基础 解 系 ， 则 对 于 某 一 个 \， 以 它 所 对 应 的 基础 解 系 为 基 形成 的 线性 空 
间 中 的 任意 一 个 向 量 ， 均 为 和 所 对 应 的 特征 向 量 。 


附录 B 概率 统计 


B.1 随机 变量 与 概率 分 布 


随机 变量 在 英文 中 称 为 random variable， 简 写 为 r.v.。 通 俗 来 讲 ， 它 是 一 种 会 随机 改变 的 不 确定 量 。 那 既然 不 确定 ， 我 们 又 是 如 何 去 度 量 它 的 呢 ? 
如 果 我 们 单纯 表面 地 看 这 个 问题 : 随机 变量 就 是 某 一 事件 发 生 的 概率 ， 记 为 P (A) =x，x 会 随 着 时 间 和 不 同 场景 而 变化 。 那 这 样 的话 ， 我 们 很 难 从 直观 上 去 理解 这 个 概率 问题 。 那 有 什么 办 法 呢 ? 


有 ， 我 们 可 以 把 概率 当成 一 种 面积 去 理解 ， 所 有 的 概率 问题 都 可 以 表示 成 一 个 小 于 一 大 于 0 的 面积 的 大 小 。 这 样 就 确定 概率 了 。 而 随机 的 部 分 就 是 这 个 面积 的 形状 ， 而 它 的 值 ， 就 是 唯一 确定 的 了 : 








而 这 个 面积 是 怎么 算出 来 的 呢 ? 既然 我 们 已 经 知道 了 随机 变量 的 概率 ， 那 这 个 面积 ， 其 实 就 是 该 概率 下 的 概率 分 布 。 


概率 分 布 的 概念 比 随机 变量 更 为 宽泛 ， 它 只 考虑 面积 ， 不 考虑 其 他 的 。 在 这 里 我 们 直接 把 概率 分 布 称 作 分 布 。 比 如 掷 货 子 中 蜗 子 点 数 出 现 的 概率 就 是 一 种 分 布 : 


点 数 正常 的 人 般 子 出 现 该 点 数 的 概率 老 干 的 般 子 出 现 该 点 数 的 概率 


2 1/6 0.1 
3 1/6 Ul 
9 1/6 0.1 
6 1/6 0.2 


在 以 上 的 例子 中 ， 撕 明子 的 两 种 情况 (正常 的 和 老 干 的 ) ， 就 是 两 种 不 同 的 随机 变量 ， 而 在 某 一 个 点 数 下 得 到 的 概率 值 ， 就 是 该 随机 变量 的 概率 分 布 (或 者 说 分 布 ) 。 
在 日 常生 活 中， 我 们 有 更 一 般 的 说 法 : 对 于 更 为 一 般 的 随机 变量 ， 我 们 有 如 下 的 公式 计算 概率 分 布 : 

P (x=k) =x (w) =k 时 区 域 w 的 面积 

这 里 ,我 们 需要 注意 以 下 两 点 : 

1) 所 有 的 概率 分 布下 的 每 个 点 的 概率 值 介 于 0 到 1 之 间 。 


2) 同一 概率 分 布下 的 概率 之 和 为 1。 
B.1.2 ”表示 方法 


原则 上 ， 随 机 变量 的 表示 一 般 以 大 写 为 主 ， 比 如 X (w) =a， 那 么 X 就 是 随机 变量 ， 而 a 就 是 结果 。 这 点 跟 上 函数 的 映射 很 相似 ， 如 果 我 们 再 加 入 概率 分 布 ， 就 会 有 : P (x=k) =a。 一 一 两 个 等 号 可 能 感 
党 有 点 拖 杏 。 为 了 简单 明了 又 能 说 明 问 题 ， 我 们 通常 用 P (k) 表示 随机 变量 x 在 k 处 的 概率 值 。 


那么 ， 如 果 有 多 个 随机 变量 呢 ? 最 通常 的 做 法 就 是 写成 P (x=3) ，P (y=2) 。 而 更 一 般 的 ,我们 也 可 以 写成 Px (3) 或 者 Py (2) 。 


B.2 条 件 概率 与 贝 叶 斯 


B.2.1 前 言 
在 说 这 个 之 前 ， 我 们 先 来 搞 清 楚 什 么 是 联合 概率 和 边缘 概率 。 


假设 有 两 个 随机 变量 X 与 Y， 此 时 P (X=a，Y=b) 用 于 表示 X=a 且 Y=b 的 概率 ， 像 这 样 的 包含 多 个 条 件 且 所 有 条 件 同 时 成 立 的 概率 称 为 联合 概率 。 请 注意 : 联合 概率 不 是 其 中 某 个 条 件 成 立 的 概率 ， 而 
是 所 有 条 件 同时 成 立 的 概率 。 而 边缘 概率 是 指 仅仅 像 P (X=a) 或 者 P (Y=b) 这 类 仅仅 与 一 个 随机 变量 有 关 的 概率 称 为 边缘 概率 。 


联合 概率 与 边缘 概率 额 关系 如 下 : 


P(x=a 





P(y=b 





如 果 用 面积 表示 的 话 ，X 和 Y 两 者 相交 的 部 分 就 是 联合 概率 了 ， 而 X 与 Y 的 单独 部 分 ， 就 是 他 们 的 边缘 概率 。 


B.2.2 ”公式 推导 


说 了 那么 多 ， 那 什么 叫 条 件 概 率 呢 ? 


在 实际 生活 中 ， 许 多 有 价值 的 变量 都 能 以 条 件 概率 这 一 概念 来 表述 。 我 们 以 扑克 牌 为 例 : 


一 副 扑 克 牌 一 共 54 张 ， 去 掉 2 个 王 ， 剩 下 52 张 ， 其 中 1-10 一 共 40 张 。 而 红色 的 牌 一 共 26 张 ， 而 数字 牌 一 共 40 张 ， 所 以 就 有 : 





P(x = 红色 )=26/52=1/2 


那 既 是 红色 又 是 数字 的 概率 就 是 P (X= 数字 牌 ，y= 红 色 ) =20/52 了 。 





好 了 ， 那 我 如 果 抽 到 一 张 牌 是 红色 的 ， 它 是 数字 牌 的 概率 是 多 少 ? 


这 里 就 要 引入 条 件 概率 了 ， 我 们 可 以 把 这 个 问题 想 成 : 当 “ 红 色 牌 ”成 立 的 时 候 ，“ 数 字 牌 ”发 生 的 概率 是 多 少 ” 简 单 运算 之 后 可 得 : 


P(X = 数字 牌 , 少 = 红色 ) 


= 2 
P(y= 红 色 ) 


P(x= 数 字 有 牌 1|y= 红 色 )= 


所 以 这 就 是 条 件 概率 的 计算 方法 。 


我 们 把 它 一 般 化 了 就 得 到 : 


p(x=aly=b)= = "y=0) 


P(y=0b) 





那 贝 叶 斯 公式 又 是 什么 ”说 这 个 之 前 ， 我 们 先 来 看 看 这 个 问题 : 
已 知 x=a，b，c; y=d 

我 们 又 知道 : P (x=a) ，P (x=b) ，P (x=c) 和 

P (y=dlx=a) ，P (y=dlx=b) ，P (y=djx=c) 
那么 如 果 我 知道 y=d， 那 x=a 的 概率 有 多 少 ? 


然后 根据 条 件 概率 ， 我 们 可 以 推 得 : 


P(x=aly=d) -£07y=0) 


p(y=4d) 


发 现 分 子 很 好 求 ， 根 据 条 件 概率 可 得 : P (x=a, y=d) =P (y=d|lx=a) :P (x=a) 


那 分 母 呢 ? 别 忘 了 ，y=d 中 有 三 种 情况 : x=a，x=b 和 x=c。 于 是 我 们 依然 可 以 用 条 件 概率 求 得 分 母 
P(y=d)= P(y=d|x=a):P(x=a)+P(y=d|x=b):P(x=b)+P(y=d|x=c):P(x= co) 
两 者 相 除 就 得 到 贝 叶 斯 公式 : 


ye | (Xd) 


B.3” 协 方差 与 多 元 正人 态 分 布 


B.3.1 协 方差 
本 节 将 讨论 两 个 随机 变量 X，Y 的 协 方差 (covariance) ，Cov (X，Y) ， 协 方差 和 方差 的 表达 类 似 ， 不 过 含义 有 所 不 同 。 其 中 X，Y 都 是 随机 变量 ， 可 取 任 意 大 小 的 值 。 为 了 构造 协 方差 ， 我 们 规定 : 
1) 协 方差 为 正 表 示 一 方 增 大 ， 另 一 方 也 倾向 于 增 大 。 
2) 协 方差 为 负 表示 一 方 增 大 ， 另 一 方 倾 向 于 减 小 。 
3) 协 方差 为 零 : X，Y 两 者 独立 。 
基于 上 面 的 规定 ， 我 们 得 出 协 方差 的 结果 : Cov[X，Y]=E[ (X-h) (Y-v) ]， 不 难看 出 ， 如 果 X=Y，u=v， 协 方差 就 变 成 了 : E[ (X-h) 一 一 这 个 就 是 方差 公式 。 
针对 协 方差 公式 的 特性 ， 我 们 可 以 从 概率 上 讨论 得 到 更 精确 的 定义 : 
当 协 方差 的 值 为 正 时 : 
. 如 果 一 方 的 取 值 大 于 期 望 值 ， 另 外 一 方 取 值 大 于 期 望 值 的 概率 也 将 更 大 。 
. 如 果 一 方 的 取 值 小 于 期 望 值 ， 另 外 一 方 取 值 小 于 期 望 值 的 概率 也 将 更 大 。 
. 当 协 方差 的 值 为 负 时 : 
. 如 果 一 方 的 取 值 大 于 期 望 值 ， 另 外 一 方 取 值 小 于 期 望 值 的 概率 也 将 更 大 。 
. 如 果 一 方 的 取 值 小 于 期 望 值 ， 另 外 一 方 取 值 大 于 期 望 值 的 概率 也 将 更 大 。 
协 方差 矩阵 : 


假如 有 n 个 随机 变量 ， 他 们 之 间 的 协 方差 系数 是 怎么 表示 的 呢 ? 这 里 就 要 用 到 协 方差 矩阵 了 ， 比 如 有 随机 变量 X1，X2，X3， 他 们 之 间 的 协 方差 系数 如 下 : 
| A 和 

区 1 Var(xi) COV(XIX2) COVv(XiXs) 

X) COVv(X,X1) Var(x,) COV(X,,X;) 

3 COV(X3X1) COVv(X3,Xs) Var(x;) 
也 就 是 说 : 对 于 任意 随机 变量 Xi， Xj， 我 们 都 有 : 

var(X,) i=] 

Cov(X,,X,) iz] 


协 方差 是 我 们 研究 不 同 随机 变量 之 间 关 系 的 一 个 桥梁 ， 同 时 我 们 也 可 以 通过 求 协 方差 ， 来 研究 变量 与 变量 之 间 的 相互 关系 。 


Cov=(X,,X,)= 


B.3.2 ”多 元 正 态 分 布 
我 们 接 下 来 讨论 多 元 正 态 分 布 的 问题 : 
顾名思义 ， 多 元 正 态 分 布 是 含有 多 个 变量 的 正 态 分 布 ， 正 态 分 布 是 一 种 极为 重要 的 基本 分 布 类 型 ， 多 元 正 态 分 布 同样 具有 重要 意义 。 基 于 以 下 两 个 特征 ， 多 元 正 态 分 布 的 应 用 十 分 广泛 。 
多 元 正 态 分 布 的 表达 式 易 于 处 理 ， 且 理论 推导 的 结果 较为 简洁 
现实 生活 中 很 多 问题 都 可 以 用 多 元 正 态 分 布 解决 。 
多 元 正 态 分 布 的 类 型 : 
1. 多 元 标准 正 态 分 布 


我 们 先 定义 单个 标准 正 态 分 布 的 函数 : 


L = AAA th 2(2) 一 CeXp( 一 一 ) 


然后 求 得 联合 概率 密度 : 


了 了 


4) Z 
(ZI=6* exp(-) 6 Sub ……C.eXp( 一 EA d Sp ) 
其 中 ||zZ|| 表 示 Z 的 模 长 ，d 可 以 由 概率 和 为 1 唯一 确定 ， 
显然 ， 联 合 概 率 密度 函数 的 横 截面 是 一 个 辆 (或 者 说 等 值 面 是 一 个 球面 或 者 超 球面 ) 。 
而 多 元 标准 正 态 分 布 的 方差 和 数学 期 望 可 以 由 概率 密度 函数 唯一 确定 。 
2. 多 元 一 般 正 态 分 布 


我 们 将 之 推广 到 一 般 情 况 ， 假 设 一 组 符合 多 元 标准 正 态 分 布 的 随机 变量 的 数学 期 望 为 E[Z]， 方 差 是 V[Z]. 我 们 假设 对 该 标准 正 态 分 布 进行 变换 : 设 X=aZ+b。 于 是 多 元 一 般 的 正 态 分 布 的 数学 期 望 和 方差 
如 下 可 得 





B.4 估计 与 检验 


在 完成 数据 采集 之 后 ， 我 们 自然 一 方面 希望 统计 其 中 某 些 值 所 占 的 比率 一 一 这 就 是 描述 统计 所 做 的 事情 ; 另 一 方面 ， 我 们 希望 能 够 识别 两 个 数据 集 的 差异 一 一 这 就 是 推断 统计 所 做 的 事情 。 描 述 统计 是 
数据 分 析 的 最 基本 的 步骤 ， 一 般 来 说 我 们 通过 计算 数学 期 望 和 方差 就 能 知道 某 个 数据 集 的 情况 ， 而 如 果 这 个 数据 集 的 方差 和 数学 期 望 很 难 求 得 ， 我 们 就 要 通过 估计 的 方法 ， 根 据 样本 的 数学 期 望 和 方差 来 大 
致 预测 下 总 体 的 数学 期 望 和 方差 。 


B.4.1 估计 方法 介绍 





估计 均值 的 方法 有 点 估计 和 区 间 估 计 ， 我 们 这 边 就 先 介绍 点 估计 ， 假 设 X1，X2http://www.hzcourse.comyVresource/readBook? 
path=/openresources/teach ebook/uncompressed/17400/OEBPS/Text/...Xn 是 某 个 正 态 分 布 总 体 的 抽样 样本 。 


那 我 们 可 以 得 到 这 个 正 态 分 布 总 体 的 点 估计 值 : 


U=(X+X ++ Nh)/n 
妈 二 ,各 …,% 的 中 位 数 


如 何 判断 两 个 估计 量 谁 更 精确 ， 我 们 可 以 通过 最 小 化 损失 函数 来 求 得 最 佳 的 点 估计 的 值 ， 判 断 如 下 : 





E[ (u-u') 其 中 u 是 总 体 的 数学 期 望 ，u' 是 每 一 次 抽样 得 到 的 样本 的 数学 期 户 
此 外 ， 除 了 点 估计 和 区 间 估 计 ， 从 方法 上 我 们 还 有 无 偏 估计 ， 极 大 似 然 估 计 和 贝 叶 斯 估计 。 总 之 ， 估 计 的 核心 就 是 通过 样本 去 估计 总 体 的 值 。 
B.4.2 ”检验 理论 : 


在 说 检验 之 前 ， 我 们 先 来 理解 两 个 概念 : 虚无 假设 与 对 立 假设 。 虚 无 假设 又 称 零 假 设 ， 是 我 们 试图 驳斥 的 主张 ;) 对 立 假设 又 称 备 择 假设 ， 是 我 们 试图 肯定 的 主张 。 我 们 用 一 场 球赛 的 获胜 与 否 作 为 假设 


的 例子 来 说 明 : 
H0: 甲 队 获 胜 ( 零 假 设 ) 。HA: 乙 队 获胜 ( 备 择 假设 ) 
这 里 有 个 问题 要 请 大 家 注意 ， 其 实 原则 上 ， 我 们 希望 乙 队 获 胜 一 一 也 就 是 备 择 假设 成 立 。 而 如 果 只 是 乙 队 获 胜 一 个 假设 ， 不 足以 支持 我 们 ， 所 以 我 们 希望 有 参照 组 ， 也 就 是 甲 队 获胜 。 
然而 比赛 的 胜 负 随 机 性 很 大 ， 所 以 我 们 不 能 直接 确定 哪个 假设 是 正确 的 。 因 此 我 们 进一步 降低 了 要 求 ， 我 们 用 一 个 比例 来 度量 HA 为 真 的 概率 的 大 小 ， 这 样 我 们 就 能 知道 H0 是 否 是 错 的 ， 从 而 肯定 HA。 


这 个 比例 的 大 小 称 为 P 值 ， 而 P 值 的 阀 值 称 为 拒绝 域 a， 根 据 这 个 比例 和 拒绝 域 的 关系 ,我们 有 (不 管 是 否 拒绝 ，HA 为 真 的 概率 都 为 1-a) : 





这 里 有 个 注意 点 要 说 明 。 拒 绝 零 假设 HO 其 实 是 在 主张 HA 的 正确 性 。 反 之 ， 如 果 上 述 主 张 与 实际 情况 不 太 相符 ， 则 无 法 拒绝 HO0。 也 就 是 说 ， 即 使 HO 成 立 ， 我 们 也 有 很 大 的 概率 得 到 现在 的 数据 ， 因 此 不 
能 断言 HO 无 法 成 立 。 


附录 C Scala 基础 


C.1 ”Scala 简介 


C.1.1 ”Scala 概述 
对 于 初学 者 来 说 ， 学 一 种 语言 或 工具 ， 首 先 关 心 的 学 习 该 语言 或 工具 的 意义 、 特 点 及 作用 等 。 


Scala 是 一 种 有 趣 的 语言 。 它 一 方面 吸收 继承 了 多 种 语言 中 的 优秀 特性 ， 一 方面 勾 没 有 抛弃 Java 这 个 强大 的 平台 ， 它 运行 在 Java 虚 拟 机 (Java Virtual Machine) 之 上 ， 轻 松 实 现 和 丰富 的 Java 类 库 互 联 
互通 。 它 既 支 持 面向 对 象 的 编程 方式 ， 又 支持 函数 式 编程 。 它 写 出 的 程序 像 动态 语言 一 样 简洁 ， 但 事实 上 它 确 是 严格 意义 上 的 静态 语言 。Scala 将 过 去 几 十 年 计算 机 语言 发 展 历史 中 的 精 茜 集 于 一 身 ， 化 繁 为 
简 ， 为 程序 员 们 提供 了 一 种 新 的 选择 。 


目前 大 数据 运算 架构 Spark 就 是 用 Scala 编 写 的 ， 在 Spark 中 把 scala 的 分 布 式 、 高 并 发 、 简 洁 等 特性 发 挥 得 淋漓 尽 致 。 
C.1.2 Scala 简介 


Scala 是 Scalable Language 的 简写 ， 是 联邦 理工 学 院 洛桑 (EPFL) 的 Martin Odersky 于 2001 年 基于 Funnel 的 工作 开始 设计 的 。Funnel 是 把 函数 式 编程 思想 和 Petri 网 相 结 合 的 一 种 编程 语言 。 
Odersky 先 前 的 工作 是 Generic Java 和 javac (Sun Java 编 译 器 ) 。 


Java 平 台 的 Scala 于 2003 年 年 底 /2004 年 年 初 发 布 。.NET 平 台 的 Scala 发 布 于 2004 年 6 月 。 该 语言 第 二 个 版 本 v2.0， 发 布 于 2006 年 3 月 。 截 至 目前 ， 最 新 版 本 是 版 本 2.11。 
Scala 主 要 特性 : 
: 面向 对 象 : Scala 是 一 种 纯 面 向 对 象 的 语言 ， 每 个 值 都 是 对 象 。 


: 函数 式 编 程 : Scala 也 是 一 种 函数 式 语言 ， 其 函数 也 能 当成 值 来 使 用 。Scala 提 供 了 轻 量 级 的 语法 用 以 定义 匿名 函数 ， 惰 性 求 值 ， 支 持 高 阶 函 数 ， 允 许 艇 套 多 层 函 数 ， 并 支持 柯 里 化 。Scala 的 case class 及 其 
内 置 的 模式 匹配 相当 于 函数 式 编程 语言 中 常用 的 代数 类 型 。 


. 静态 类 型 : Scala 具 备 类 型 系统 ， 通 过 编译 时 检查 ， 保 证 代码 的 安全 性 和 一 致 性 。 
扩展 性 : Scala 提 供 了 许多 独特 的 语言 机 制 ， 可 以 以 库 的 形式 轻易 无 颖 添加 新 的 语言 结构 。 


. 并 发 性 : Scala 使 用 Actor 作 为 其 并 发 模型 ，Actor 是 类 似 线 程 的 实体 ， 通 过 邮箱 发 收 消息 。Actor 可 以 复 用 线程 ， 因 此 可 以 在 程序 中 可 以 使 用 数 百 万 个 Actor， 而 线程 只 能 创建 数 千 个 。 在 2.10 之 后 的 版 本 
中 ， 使 用 Akka 作 为 其 默认 Actor 实 现 。 


C.1.3 Scala 与 Java、Python 


1.Scala 与 Java 异 同 

1) 两 者 都 是 基于 基于 JVM 及 JAVA 的 生态 系统 。 

2) scala 不 需要 分 号 结尾 ，return 可 以 省 略 。 

2.Scala 与 python 异 同 

1) 两 者 都 是 面向 对 象 ， 也 拥有 一 个 REPL。 

2) 函数 定义 都 以 def 开 头 。 

3) scala 不 像 Python 一 样 通过 代码 缩 进 来 表示 代码 的 层次 关系 ， 而 是 和 通常 的 语言 一 样 使 用 { 来 表示 代码 的 层级 。 


4) scala 缺 少 python 那 样 丰富 的 数据 处 理 ，python 不 是 为 大 数据 设计 的 ，scala 可 以 说 是 大 数据 导向 的 。 


C.1.4 安装 配置 


Scala 基 于 java 之 上 ， 大 量 使 用 java 的 类 库 和 变量 ， 在 使 用 Scala 之 前 必须 先 安装 Java。 


第 1 步 : 安装 配置 Java。 


下 载 安装 JDK 1.6 以 上 版 本 ， 设 置 JAVA_HOME 环 境 变量 及 JDK 的 bin 目 录 。 


在 /etc/profile 配 置 文件 中 : 


# 追 加 如 下 内 容 
JAVA HOME=/usr/local/java 


export 
export 














上 PATH=$PATH:$JAVA HOME/bin 





我 们 可 以 使 用 以 下 命令 查看 是 


否 安 装 了 Java: 


[hadoop@master ]$ java -version 
openjdk version “1.8.0 91” 
OpenJDK Runtime Fnvironment (build 1.8.0 91-b14) 





Javac 1.8.0 60 


第 2 步 : 安装 配置 Scala。 


可 以 从 Scala 官 网 地 址 http://www.scala-lang.org/downloads 下 载 Scala 二 进 制 包 。 


解 包 到 指定 目录 下 : 


OpenJDK 64-Bit Server VM (build 25.91-bl4, mixed mode) 
[hadoop@master |$ javac —version 











tar zxvf 





### 重 命名 


mv scala-2.11.8 scala 


在 /etc/profile 配 置 文件 中 : 


# 追 加 如 下 内 容 
export SCALA HOM 


FE=/scala 








export PATH=SPAT 








H: $SSCALA HOME/bin 


scala-2.11.8.tgz -C /usr/local/ 





然后 source/etc/profile 是 该 配置 文件 立即 生效 


运行 scala 命 令 ， 


查看 scala 安 装 是 否 成 功 。 


[hadoop@master  ]$ scala 
elcome to Scala 2. 11.8 (Java HotSpot (TM) 64-Bit Server VM, Java 1. 8.0 60). 


ype ln expresslons for evaluat1on. 


Or try :help. 


















































scala 是 一 种 伸缩 性 很 强 的 语句 ， 尤 其 是 适合 于 函数 式 编程 ， 可 以 像 Python 一 样 作为 脚本 语言 来 执行 ， 如 下 例 所 示 。 





[hadoop@mast 
#!/bin/env 
printlin("hello " 
[hadoop@mast 


E 





hello 高 峰 ! 





~]$ cat 


~]$ 


./ 


+args (0) +"!") 





test.scala 


Og 以 上 是 安装 在 centos 上 ， 


C.2 ”基础 知识 


C.2.1 


Scala 中 常用 以 val 定 义 ， 变 量 以 var 定 义 。val (value) 表示 常量 ， 


据 类 型 ，Scala 有 很 强 类 型 自动 推导 功能 ， 


[= 县 
常量 与 变量 


型 


t test.scala 





如 果 安 装 在 ubuntu 上 ， 可 采用 dpkg-i file.deb 的 方式 。 


为 不 可 变 的 ， 不 可 修改 ， 但 在 REPL 可 以 重新 赋值 。var (variable) 表示 可 变 的 
Scala 具 有 动态 语言 似 的 编写 代码 ， 但 又 有 静态 语言 的 编译 时 检查 。 


， 可 以 重新 赋值 或 修改 。 定 义 变量 时 ， 可 不 显 式 指定 数 


~ 


scala> val a=10 
a: Int = 10 
scala> val b=10.5 
b: Double = 10.5 


scala> b=12.5  //pb 是 常量 类 型 ,不 可 修改 ,否则 报错 。 
<console>:8: error: reassignment to val 
= 25 


























scala> Var c=80 
c: Int = 80 





scala> var d:Int=100 
d: Int = 100 





scala> d=200 
d: Int = 200 








.2 ”基本 类 型 


Scala 中 基础 数据 类 型 有 : Byte、Short、Int、Long、Float、Double，Boolean，Char、String。 和 Java 不 同 的 是 ，Scala 中 没 在 区 分 原生 类 型 和 装 箱 类 型 ， 如 : int 和 lnteger。 它 统一 抽象 成 Int 类 
这 样 在 Scala 中 所 有 类 型 都 是 对 象 了 。 


Scala 中 单 引号 和 双 引 号 包 庄 是 有 区 别 的 ， 单 引号 用 于 字符 ， 双 引号 用 于 字符 串 ， 而 且 双 引号 中 特殊 字符 ， 需 用 转移 字符 人 \”) 。 此 外 ， 还 有 多 行 字面 量 (如 3 个 引号 ) 和 字符 串 内 插 等 特性 。 


Scala 基 于 JVM 平 台 ， 默 认 使 用 unicode， 所 以 变量 名 是 可 以 直接 用 中 文 的 。 而 在 Scala 中 ， 中 文 也 是 直接 显示 的 ,不 像 Python2 一 样 会 输出 成 unicdoe 编 码 形式 :\U*。 以 下 通过 实例 说 明 。 


scala> val s="'h'" 
s: Char = h 


scala> Var sl="hello world!" 
sl: String = hello worild! 























scala> var sl="hello \nworld!" 





ss String = 

hello 

world! 

scala> val d="""hello \nworlg"""  // 多 行 字面 量 , 内 部 字符 都 视 为 原始 字符 








d: String = hello \nworld 
scala> val name="scala" 
name: String = scala 

















scala> printlin(s"the tool is Sname")  // 字 符 串 前 加 s, 可 以 内 插 字 符 串 
the tool is scala 


3 个 双 引 号 在 Scala 中 也 有 特殊 含义 ， 它 代表 被 包 庄 的 内 容 是 原始 字符 串 ， 可 以 不 需要 字符 转 码 。 这 一 特性 在 定义 正则 表达 式 时 很 有 优势 。 


.3 ”控制 语句 


Scala 内 置 的 控制 语言 有 if、while、for、match case 四 大 主要 控制 语句 。Scala 的 控制 语句 都 是 表达 式 是 有 返回 值 的 。 


1.if 语 句 格式 








if (Boolean express) express 
































if (Boolean express ) express else express 
示例 : 

scala> val a=l0;val b=15 

a: Int = 10 

Bi TInt = 15 

scala> val c=if ( a>b) a else b 

GY TInt =: 15 














2.wWhile 语 句 格式 





while (Boolean express) 1 
statement 


} 


示例 : 





scala> Var x=2;while (x>0) { 
| x-=1 
| println (x) 
| } 





1 

0 

x: Int = 0 
3.for 语 句 格式 








for (identifies <- iterator) [yield] [express] 











关键 字 yield 是 可 选 的 ， 如 果 表 达 式 指定 这 个 关键 字 ， 所 有 表达 式 的 值 将 作为 一 个 集合 返回 ; 如 果 没 有 指定 这 个 关键 字 ， 则 调用 表达 式 ， 但 不 能 访问 其 返回 值 。 


示例 : 


scala> val list=List(1,2,3) 
list: List[Int] = List(1, 2, 3) 























scala> for(i <-list) println(i) 














3 
scala> for (] <- 1 to 5 ) yield j*2 
res4: scala.collection.immutable.TIndexedSeq[Int] = Vector(2, 4, 6, 8, 10) 

















scala> Var list2=for (] <- 1 to 5 ) yieldq j*2 
list2: scala.collection.immutable.TIndexedSeq[Int] = Vector(2, 4, 6, 8, 10) 




















Python 有 个 列表 推导 式 ， 在 Scala 中 也 有 类 似 功 能 ， 而 且 更 强大 ， 作 用 库 不 限于 列表 ， 在 整个 集合 (如 Seq、Map、Set、List、Array 等 ) 都 适合 ， 当 然 ， 在 Scala 中 这 种 方式 叫 迭 代 器 守卫 (iterator 
guard) 。 其 格式 如 下 : 




















for (identifies <- iterator if Boolean express ) [yield] [express|] 





示例 : 








scala> Var list2=for (] <- 1 to 5 if JSgs2==0) yield j*2 
list2: scala.collection.immutable.IndexedSegq[Iint] = Vector (4，8) 

















scala> val sl="python,ipython,pandas,scala" 

sl: String = python,ipython,pandas,scala 

scala> for (i <- sl.split(",") if i.size>5) printiln(i) 
python 

ipython 

pandas 

















4.match case 语 句 格式 





express matcht{ 
case pattern match => express 
[case statement] 


} 





Scala 中 的 match case 称 为 模式 匹配 ， 它 是 默认 break 的 ， 只 要 其 中 一 个 Case 语句 匹配 ， 就 终止 之 后 的 所 以 比较 。 且 对 应 case 语 句 的 表达 式 值 将 作为 整个 match case 表 达 式 的 值 返回 。 


示例 : 


scala> val tools="scala" 
tools: String = SCala 




















scala> val 七 1=tools matcht{ 
case "python"=>"python" 
case "pandas"=>"python" 
case "ipython"=>"python" 
case "scala"=>"scala" 
case _ =>"others" / /下划线 表示 通配符 











| 
| 
| 
| 
| 
| 
tl: String = scala 





这 种 多 个 条 件 对 应 一 个 结果 的 情况 ， 可 以 用 竖 线 (|) 来 表示 ， 这 样 结构 更 简洁 。 


示例 : 


scala> val 七 1=tools matcht{ 
| case "python"|"pandas"|"ipython" =>"python" 
| case "scala"=>"scala" 
| case _ =>"others" 








tl: String = scala 


在 Python 中 ， 常 用 集合 类 型 有 : list、tuple、set、dict 等 。Scala 中 对 应 的 有 : Array、List、Tuple、Set、Map 等 。Scala 中 这 些 关键 字 的 第 一 个 字母 需 大 写 。Scala 中 各 集合 间 的 层次 结构 如 下 : 





Traversable 


Iterable 





Seq Set Map 


IndexedSeq HashMap 


C.3.1 数组 


数组 Array， 下 标 从 0 开始 ， 通 过 () 来 引用 ， 成 员 可 修改 。 





scala> val arrl=Array ("python", "java", "scala") 
arrl: Array[String] = Array (python, java, scala) 








scala> arrl (1)="spark" 





scala> arr] 
res12: Array[String] = Array (python, spark, scala) 











C.3.2 列表 
列表 List， 下 标 从 0 开始 ， 通 过 () 来 引用 ， 成 员 可 读 ， 


scala> val listl=List(10,20,5) 
listl: List[Int] = List(10, 20, 5) 

















scala> list1 (2) 
resl3: Int = 5 




















// 成 员 不 可 修改 ,否则 报错 


scala> list1 (1)=30 

















但 不 可 修改 ，List 是 lterable 的 一 个 子 类 型 。 





<console>:13: error: Value update is not a member of List[Int] 
listl] (1)=30 
列表 还 可 通过 : : 操作 符 ， 将 一 个 元 素 和 列表 连接 起 来 ， 并 把 元 素 放 在 列表 的 开头 。 


scala> 1::1istl 








res1l6: List[Int] = List(1, 10, 20, 5) 


























列表 常用 方法 : 
A 

contains List(1,2,3).contains(2) 检查 列表 中 是 否 包含 某 个 元 素 
exits List(1,2,3).exists( >2) 检查 列表 中 是 否 至 少 有 一 个 满足 条 件 的 元 素 。 
forall List(1,2,3).forall( >2) 仿 查 列表 中 所 有 元 素 都 满足 条 件 。 
filter List(1,2,3,4).filter(_ >2) 过 滤 使 条 件 为 True 的 元 素 
flatten List(List(1,2),List(3,4)).flatten 将 列表 的 列表 变 为 元 素 列表 

， 将 函数 作用 于 遍历 集合 中 每 个 元 素 得 到 新 列表 ， 
map List(1,2,3,4) map( *10) 有 返回 什 
foreach List(1,2,3,4).foreach(x=> println(x+10)) 将 也 数 作用 于 遍历 集合 中 每 个 元 素 ， 无 返回 值 
reduce List(1,2,3 二 en + ) 从 列 个 元 系 开 始 从 左 到 右 归 约 人 处 理 
sortBy List(“a "cd” ,” efe” ).sortBy( .size) 根据 晒 数 返回 值 进行 排序 
take List(1,2,3 2 i 取 丈 = n 个 元 素 
size List(“ , Cd” ,” efg” ).size 统计 列表 元 系 个 数 

个 hs < 2 ， 
本 List(1,2)zip List(3.,4) 了 0 合并 为 一 个 元 组 列表 ， 列 表 对 应 索 
C.3.3 元 组 


与 Python 中 类 似 ，Scala 也 采用 小 括号 来 定义 元 组 Tuple， 下 标 从 1 开始 ， 通 过 _ 下 标 来 访问 成 员 ， 不 能 通过 () 访问 成 员 ， 这 点 与 数组 、 列 表 不 同 ， 其 成 员 可 以 是 不 同类 型 ， 元 组 最 多 只 支持 22 个 元 素 。 


scala> val tl1= (2,5,1,4) 

tl (Int; .Int» Ine nt) SS.(275y174) 
scala> tl1. 2 
res42: I 



































C.3.4 集合 
Set 是 一 个 不 重复 且 无 序 的 集合 ， 初 始 化 一 个 集合 需要 使 用 Set 对 象 。 


scala> val setl=Set (1,2,2,4,5) 


























setl: scala.collection.immutable.Set[Int] = Set(1, 2, 4, 5) 
C.3.5 ”映射 


scala 中 的 Map 是 个 可 变 的 键 / 值 库 ， 其 他 语言 中 也 称 为 离散 映射 (hashmap) 、 
元 组 ， 也 可 以 使 用 关系 操作 符 (->) 来 指 


如 scala.collection.mutable.Map。 


字典 (dictionary) ， 与 Python 中 的 字典 dict 类 似 。Scala 并 没有 提供 一 个 {} 来 定义 Map， 创 建 Map 时 ， 指 定 键 - 值 对 为 


定 键 和 值 元 组 。 与 Set、List 一 样 ，Map 也 是 lterable 的 一 个 子 类 型 ， 支 持 与 List 相 同 操作 。Map 默 认 是 不 可 修改 的 ， 如 果 要 成 为 可 变 Map， 需 要 显 式 定义 其 类 型 ， 








ml: Scala.collection.immutable.Map[Int,Strind] = Map (1 -> python, 2 -> java, 4 -> scala) 








scala> ml (4) 
res49: String = scala 


scala> ml+=(3->"spark") ”// 因 m1 默认 为 不 可 变 的 , 故 添 加 元 素 报 错 

bo error: Value += is not a member of scala.collection.immutable.MaplInt,String] 
= (3->"spark") 
/ /把 ml 修改 为 可 变 Map 
scala> val ml=scala.collection.mutable.Map (1->"python", 2->"java", 4->"scala") 

ml: scala.collection.mutable.MaplIint,String] = Map(2 -> java 4 -> scala, 1 -> python) 















































scala> ml+= (3->"spark") 
res51l: ml.type = Map(2 -> java 4 -> scala, 1 -> python, 3 -> spark) 


scala> ml (5)="hadoop" 











scala> ml 
res53: scala.collection.mutable.MaplInt,String] = Map(2 -> java 5 -> hadoop, 4 -> scala, 1 -> python, 3 -> spark) 








Map 用 于 循环 语句 : 


scala> for (key<-ml.keys) print(s"$key ") 
25413 

scala> for (value<-ml.values) print(s"${value} ") 
java hadoop scala Python spark 














C.3.6 ”集合 的 模式 匹配 


模式 匹配 是 Scala 的 一 个 核心 特性 ， 这 个 特性 可 用 于 Scala 的 数据 结构 ， 利 用 该 特性 可 大 大 简化 代码 、 使 逻辑 显得 更 清晰 。 


scala> val rets=listl1 matcht{ 
| case x if x contains ("spark")=>"big data tools" 
| case =>"no" 
| } 

rets: String = big data tools 











浮 数 是 可 重用 的 逻辑 单位 ， 在 Scala 中 ， 函 数 是 一 等 公民 ， 遂 数 式 编程 是 Scala 的 一 大 特色 。 函 数 可 以 被 赋值 给 一 个 变量 ， 也 可 以 作为 一 个 函数 的 参数 被 传 入 ， 甚 至 还 可 以 作为 浮 数 的 返回 值 返回 。 


与 Python 一 样 ，Scala 也 使 用 def 关 键 词 来 定义 一 个 函数 ， 定 义 函 数 一 般 需要 确定 函数 的 名 称 、 参 数 和 函数 体 ， 具 体格 式 如 下 : 
































def <fun name> (<param>:<type>[,hnttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/17400/OEBPSVText/. . .]) :type=<expression> 


如 果 有 参数 ， 需 要 说 明 参 数 类 型 ， 如 果 遂 数 不 是 递归 的 ， 就 不 一 定 需要 指明 返回 类 型 。Scala 编 译 时 可 以 根据 等 号 右 侧 的 表达 式 的 类 型 推导 出 返回 类 型 。 


如 果 函 数 体 有 多 条 语句 ， 可 用 放 人 在 {} 里 ， 最 后 一 句 的 值 为 函数 返回 值 ， 有 时 需要 用 return 显 式 指明 返回 值 ， 并 退出 函 数 。 



































scala> def funl (x:Int)=if (x>0) x else -x 
funl: (x: Int)Int 
scala> funl (-100) // 调 用 函数 


















































un2 (X:Int) :Int=if (x>0) x else -x 






































当然 参数 不 是 必须 的 ， 有 时 国 数 没有 参数 ， 如 下 所 示 : 









































scala> def f1()="hello" 

fl: ()String 

scala> def f2="ok" 

2 String 

scala> def f3:String="scala" 
3 String 


C.4.2 ”匿名 函数 


Python 中 lambda 函 数 ，Scala 有 对 应 的 匿名 国 数 ， 匿 名 函数 是 Scala 的 重要 特点 之 一 ， 其 语法 格式 为 : 








([<paraml>:<type>,http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/...])=><expression> 














示例 : 





scala> (x:Int)=>x+2 
res2: Int => Int = <function1> 











scala> res2 (10) 
res3: Int = 12 
// 把 函数 赋值 给 变量 a 
scala> Var a= (x:Int)=>x+2 
a: Int => Int = <function1> 
































scala> a(10) 









































































































































res4: Int = 12 

scala> val listl=List(2,5,7,8) 
istl: Ligst[fIntl 二 List (2 957 1...8) 
scala> listl1.filter( (x:Int)=>x>6) 
res5: List[Int] = List(7, 8) 

// 省 略 参数 类 型 

scala> 11st1l1.flilter((X)=>X>6) 

res6: List[Int] = List(7, 8) 

// 单 个 参数 ,可 去 掉 括 号 

scala> 1List1.filter(X=>xX>6) 

res7: List[Int] = List(7, 8) 

// 如 果 一 个 参数 ,只 使 用 一 次 ,可 用 划 线 ( ) 代替 参 数 , 并 只 要 表达 式 。 
scala> Jistl1.filter( >6) 

res8: List[Int] = List(7, 8) 
































函数 也 是 对 象 ， 可 以 把 视 为 参数 化 表达 式 块 ， 而 表达 式 块 是 可 以 递归 或 谋 套 ， 所 以 函数 本 身 也 可 以 递归 或 嵌 套 。 以 下 通过 实例 说 明 如 何 实现 浮 数 的 递归 |。 

















scala> // 计 算 n! 
scala> def fn(n:Int) :Int={ 
| IE (n<=0)1 


| else n*fn(n-1) 












































fn: (n: Int)Int 























scala> fn(5) 
res2: Int = 120 








但 是 递归 会 造成 堆栈 的 大 量 占 用 ， 可 以 使 用 尾 递归 i 


它 就 覆盖 当前 的 活动 记录 而 不 是 在 栈 中 去 创建 一 个 新 的 。 只 有 最 后 一 个 语句 为 递 


时 


~ 


scala> Qannotation.tailrec 

| def fn(n:Int,m:Int) :Int={ 
f (n<=0)m 
| else fn(n-1,m*n) 















































fne (ns INnt, m: InNnt)Int 











scala> fn(5,1) 
res3: Int = 120 














C.4.4 有 默认 值 参数 的 函数 


Python 有 融 默 认 值 参数 的 函数 ，scala 中 也 有 类 似 函 数 ， 使 用 了 默认 参数 ， 你 在 调用 函数 
例如 下 : 














nt=0) :Int={ 








scala> def aqqInt (x:Int,y: 

















addIint: (x: Int, 
scala> addInt (20) 
res5: Int = 20 





y: 
及 ; 交 有 默认 值 的 这 个 参数 














scala> aqqInt (20,30) // 输 入 有 默认 值 的 这 个 参数 


res6: Int = 50 











C.4.5” 变 长 参数 的 函数 


在 介绍 Python 函数 时 ， 我 们 介绍 了 变 长 参数 的 函数 ， 函 数 定义 格式 为 : 





进行 优化 。 优 化 的 方式 是 ， 在 函数 定义 前 加 上 @annotation.tailrec 这 个 函数 注解 ( 注 不 是 注释 ) 来 声明 尾 递 | 
归 调 用 的 函数 才能 由 scala 编 译 器 完成 尾 递 


， 当 编译 器 检测 一 个 函数 调用 时 尾 递 归 


归 优化 ， 否 则 编译 时 将 报错 ， 还 是 以 上 例 来 说 明 ， 这 是 函数 fn 需要 做 些 调整 。 


的 过 程 中 可 以 输入 该 参数 ， 这 时 函数 就 会 调用 它 的 默认 参数 值 ， 如 果 传 递 了 参数 ， 则 传递 值 会 取代 默认 值 。 举 





*tupl, **dict) 

















def 函数 名 (参数 1, 参数 2, http://www.hzcourse.com/resource/readRBook?path=/openresources/teach ebook/uncompressed/17400/0EBPS/Text/..., 


在 Scala 中 也 有 类 似 功 能 的 浮 数 ， 而 且 更 简洁 ， 只 需要 在 该 浮 数 参数 类 




















scala> def sum(items:Int*) :Int={ 
| Var sum=0 
| for (i <- items) sumt+=i 
| sum 
































Python 可 变 参 数 可 输入 列表 或 字典 等 ， 以 上 方式 将 报错 。 此 时 ， 我 们 可 以 在 调用 遂 数 参数 后 面 扎 加 : _“*, 
参数 传 给 函数 ， 具 体 使 用 举例 如 下 : 


1itl=List (1,2,3,4,5) 
tC] Listi(Ly .27 37 4; 5) 



































C.4.6 ”部 分 应 用 的 函数 


调用 遂 数 时 ， 通 常 需要 指定 函数 中 的 所 有 参数 ( 含 默认 值 的 参数 除外 ) ， 


这 时 我 们 可 以 在 原 立 数 基础 上 定义 一 个 部 分 应 用 函数 即 可 ， 具 体 实现 请 看 下 例 。 














scala> def additems (x:Int,y:1Int) :In 七 =X+Y 


additems: (x: Int, y: Int)Int 



































scala> val additems1l0=additems (10, :Int) 
additems10: Int => Int = <functionl> 


























scala> additems10 (30) 
res22: Int = 40 





C.4.7 ” 柯 里 化 函数 


实现 部 分 应 用 函数 ， 还 有 一 种 更 简便 的 方法 ， 采 用 多 个 参数 表 的 函数 ， 此 时 ， 不 是 将 一 个 参数 表 分 成 应 用 参数 和 非 应 用 参数 ， 而 是 应 用 其 中 一 个 参数 表 的 中 人 参数， 不 用 另 一 个 参数 表 中 参数 ， 


称 为 函数 的 柯 里 化 (currying) ， 具 体 实现 如 下 : 











scala> def additems (x:Int) (y:Int) :Int=xt+y 


additems: (x: Int) (y: Int)Int 
































scala> val additems1l0=additems (10) 
additems10: Int => Int = <function1> 


























scala> additems10 (30) 
: Int = 40 





C.4.8 ”遍历 集合 成 员 


在 数据 处 理 中 经 常 一 些 函 数 遍 历 集 
这 些 函 数 在 Python 也 有 ， 称 为 内 置 函 数 。 


如 果 参 数 较 多 ， 而 且 调 用 时 希望 保留 部 分 参数 值 ， 而 修改 部 分 参数 值 ， 


合 (如 Array、List、Tuple、Set、Map 等 ) 中 每 个 元 素 ， 函 数 遍历 每 个 元 素 得 到 一 个 新 的 集合 或 没有 返回 值 。 经 常 使 用 的 函数 有 map、filter、foreach， 





型 后 增加 一 个 星 号 (*) 即 可 ， 举 例如 下 : 


_* 操 作 符 将 告诉 编译 器 把 序列 (Aarry，List，Seq，Vector 等 ) 中 的 每 个 元 素 作为 一 个 单独 的 


该 如 何 操作 呢 ? 


这 种 技术 


reduce 等 。 





scala> val list2=List.range (0,10,2) 
list2: List[Int] = List(0, 2, 4, 6, 8) 








scala> list2.map (i=>i+100) 
res24: List[Int] = List(100, 102, 104, 106, 108) 























scala> list2.foreach (i=>i+100)  // 与 mnap 类 似 ,但 没有 返回 值 
scala> list2.filter (i=>i>2) 
res27: List[Int] = List(4, 6, 8) 
































scala> list2.reduce( (x,y)=>xt+y) 
res28: Int = 20 











上 例 中 集合 为 一 个 列表 ， 如 何 是 map， 它 又 有 哪些 函数 呢 ? 





scala> val ml=Map (1->"scala",2->"python", 3->"spark") 

ml: scala.collection.immutable.Map[Iint,SsString] = Map(l1 -> scala, 2 -> python, 3 -> spark) 
scala> val m2=ml .filterKeys( >1) 
m2: scala.collection.immutable.MaplInt,String] = Map(2 -> python, 3 -> spark) 
scala> ml.foreach (x=>println(s"key is:${x. 1},value is:${x. 2}")) 

key is:1l,value is:scala 

key is:2,value is:python 

key is:3,value is:spark 

































































